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“数据 分 析 与 数据 挖掘 ?是 一 门 跨 学 科 的 计算 机 科学 分 支 课 程 ,是 人 工 智 能 、 机 器 学 习 、 
概率 论 、 统 计 学 和 数据 库 知识 的 交叉 学 科 。 数 据 挖掘 的 目标 是 在 一 个 或 多 个 数据 集中 通过 
数据 处 理 和 结合 一 定 的 算法 模型 ,最终 挖 掘 出 有 价值 的 信息 。 随 着 科技 的 发 展 ,数据 量 呈 爆 
炸 式 增长 ,数据 挖掘 在 工业 界 和 学 术 界 都 得 到 了 越 来 越 多 的 重视 。 国 际 知名 的 互联 网 公司 
和 科研 单位 都 在 大 力 发 展 数据 科学 。 在 我 国 ,数据 科学 的 发 展 受 到 了 极 大 的 关注 ,通过 数据 
分 析 与 数据 挖掘 可 以 帮助 决策 ,进而 推动 经 济 发 展 。 

本 书 内 容 均 为 数据 分 析 与 数据 挖掘 过 程 中 常用 方法 和 模型 ,目的 是 让 爱好 数据 科学 的 
计算 机 专业 、 统 计 学 专业 以 及 相关 专业 的 学 生 熟 悉数 据 挖 掘 的 过 程 ,掌握 数 据 分 析 与 数据 挖 
掘 过 程 中 常用 的 算法 模型 及 数据 处 理 方式 。 本 书 知 识 点 的 介绍 通过 基础 理论 及 概念 讲解 、 
应 用 例题 .习题 三 部 分 进行 ,部 分 章节 涉及 算法 应 用 实例 。 通 过 对 数据 分 析 与 数据 挖掘 知识 
点 的 基础 理论 讲解 ,对 数据 分 析 与 数据 挖掘 形成 整体 的 认识 及 了 解 ; 通 过 应 用 例题 ,能 够 对 
算法 的 过 程 有 深刻 的 理解 ;通过 习题 ,能够 巩固 相应 知识 点 。 本 书 注重 基础 理论 的 介绍 ,使 
读者 能 够 快速 掌握 数据 分 析 与 数据 挖掘 的 基本 过 程 和 基础 算法 ,为 后 续 学 习 打 下 坚实 的 
基础 。 

参与 本 书 构 思 , 撰 写 、 审 稿 . 应 用 实例 的 上 机 验证 及 截图 校对 的 人 员 如 下 : 喻 梅 . 于 健 、 
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本 章 主 要 介绍 数据 分 析 和 数据 挖掘 的 基本 概念 与 基本 方法 ,讲述 对 复杂 、 大 型 数据 集 进 
行 分 析 和 挖掘 的 重要 性 和 必要 性 ,简要 介绍 数据 分 析 与 数据 挖掘 的 主要 过 程 和 目标 ,以 及 说 
明 其 在 实际 应 用 中 存在 的 缺点 和 不 足 。 


1.1 数据 分 析 与 数据 挖掘 


1.1.1 数据 分 析 


数据 分 析 (Data Analysis, DA) 是 指 采用 适当 的 统计 分 析 方 法 对 收集 到 的 数据 进行 分 
析 、 概 括 和 总 结 ,对 数据 进行 恰当 的 描述 ,并 提取 出 有 用 的 信息 的 过 程 。 早 在 20 世纪 初期 ， 
数据 分 析 的 数学 基础 就 已 经 确立 ,但 由 于 数据 分 析 涉 及 大 量 的 计算 ,一 直 难 以 应 用 到 实际 
中 ,计算 机 的 出 现 解 决 了 这 个 问题 ,使 数据 分 析 得 到 了 广泛 的 应 用 。 

数据 分 析 一 般 具 有 比较 明确 的 目标 ,可 以 根据 数据 分 析 得 出 的 结果 做 出 适当 的 判断 ,用 
来 为 以 后 的 决策 提供 依据 。 例 如 : 某 连锁 超市 对 上 季度 各 种 商品 的 销售 量 进行 统计 和 分 
析 , 得 出 每 种 商品 的 需求 量 和 销售 曲线 ,采购 部 门 可 以 根据 这 些 数据 判断 是 否 要 增加 或 减少 
订货 量 。 

数据 分 析 的 结果 可 以 通过 列表 和 作 图 等 方法 表示 。 将 数据 按照 一 定 的 规律 在 表格 中 表 
示 出 来 是 常用 的 处 理 数据 的 方法 ,通过 横向 或 纵向 的 对 比 可 以 清晰 地 看 出 数据 之 间 的 关系 。 
K 1-1 为 商品 销售 量 的 列表 数据 ,可 以 清晰 地 对 比 四 个 月 的 销售 量 。 





Raid 商品 销售 量 数据 表 (单位 : fF) 
月 份 一 月 二 月 = 四 月 
超市 一 120 118 125 122 
超市 二 110 115 115 120 
超市 三 125 120 120 125 


作 图 法 可 以 明确 地 表达 各 数据 量 之 间 的 变化 关系 ,常见 的 图 有 排列 图 、 因 果 图 散布 图 、 
直方 图 、 控 制图 等 。 图 1-1 是 表 1-1 中 数据 的 折线 图 ,可 以 看 到 每 个 月 销售 量 的 变化 情况 。 


1.1.2 数据 挖掘 


数据 挖掘 (Data Mining,DM) 是 指 从 海量 的 数据 中 通过 相关 的 算法 发 现 隐 藏 在 数据 中 
的 规律 和 知识 的 过 程 。 
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图 1-1 商品 销售 量 数 据 图 


实际 上 ,“ 数 据 挖掘 ”一 词 并 不 能 完全 地 表达 其 含义 ,更 准确 的 表达 应 当 是 “在 大 量 数据 
中 挖掘 知识 ”, 数 据 挖掘 又 称 为 “资料 勘探 “数据 采矿 ”, 类 似 于 在 大 量 的 沙子 中 挖掘 金 矿 , 数 
据 挖 掘 强 调 在 大 量 的 、 未 经 过 加 工 的 数据 中 发 现 少量 的 .具有 重要 价值 的 知识 。 

在 计算 机 行业 中 ,数据 挖掘 是 发 展 最 快 的 领域 之 一 。 随 着 计算 机 技术 的 飞速 发 展 和 迅 
速 普及 ,一 个 不 得 不 面临 的 问题 就 是 每 时 每 刻 都 在 产生 大 量 的 数据 。 例 如 : 在 线 交 易 网 站 
每 天 成 交 上 千 万 的 订单 ; 哈 勃 望远镜 每 周 产生 约 120GB 的 观测 数据 ; 某 即时 交流 工具 有 数 
亿 人 同时 在 线 ;医疗 行业 每 天 有 大 量 的 诊疗 病历 产生 。 科 研 机 构 和 企业 投入 了 大 量 的 人 力 
和 物力 收集 和 保存 这 些 数据 ,然而 只 有 其 中 一 小 部 分 的 数据 能 够 被 充分 利用 。 由 于 数据 量 
巨大 数据 结构 复杂 ,在 很 多 情况 下 无 法 进行 有 效 分析 。 因 此 ,如 何 对 这 些 数据 进行 处 理 并 
发 现 具有 重要 意义 的 知识 是 一 个 非常 严峻 的 问题 。 

通常 将 数据 挖掘 视 为 数据 中 “知识 发 现 ” 的 同义词 ,也 可 以 认为 数据 挖掘 是 知识 发 现 中 
的 一 个 步 又。 知识 发 现 的 过 程 如 下 。 

数据 清理 : 消除 数据 中 的 噪声 。 

© 数据 集成 : 将 不 同 来 源 的 数据 组 合 在 一 起 。 

@ 数据 选择 : 从 数据 库 中 选择 与 任务 相关 的 数据 。 

CD 数据 变换 : 将 数据 变换 成 适合 挖掘 的 形式 。 

© 数据 挖掘: 使 用 数据 挖掘 的 方法 发 现 知识 。 

© 模式 评估 : 识别 知识 中 有 用 的 模式 。 

CD 知识 表示 : 将 挖掘 到 的 知识 用 可 视 化 的 技术 表示 出 来 。 

知识 发 现 过程 如 图 1-2 所 示 。 
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图 1-2 知识 发 现 过 程 


图 1-2 中 的 “数据 预 处 理 ” 包 括 “ 数 据 清 理 ” 和 “数据 集成 两 个 步骤 。 
当 提 到 “数据 挖掘 ”时 ,通常 情况 下 要 表述 的 是 知识 发 现 的 整个 过 程 。 因 此 ,本 书 提 到 的 


数据 挖掘 也 是 其 广义 的 含义 。 
1.1.3 区 别 和 联系 


数据 分 析 与 数据 挖掘 的 定义 可 知 , 二 者 具有 如 下 区 别 。 

CD 数据 挖掘 处 理 的 是 海量 的 数据 ,这 里 用 了 “海量 ”而 不 是 大量”, 表 示 数 据 挖掘 处 理 
的 数据 量 极 大 ;而 数据 分 析 处 理 的 数据 量 不 一 定 很 大 。 

@ 数据 分 析 往 往 有 比较 明确 的 目标 ,而 数据 挖掘 所 发 现 的 知识 往往 是 未 知 的 ,需要 通 
过 数据 挖掘 的 方法 发 现 隐 藏 在 数据 中 的 有 价值 的 信息 和 知识 。 

@ 数据 分 析 着 重 于 展现 数据 之 间 的 关系 ,而 数据 挖掘 可 以 通过 现 有 数据 并 结合 数学 模 
型 ,对 未 知 的 情况 进行 预测 和 估计 。 

下 面 的 例子 说 明了 数据 分 析 与 数据 挖掘 的 不 同 之 处 。 

在 将 要 举办 的 生日 聚会 中 ,只 有 300 元 的 预算 ,为 了 将 聚会 举办 得 更 加 体面 ,组 织 人 花 
费 了 一 个 下 午 的 时 间 调 查 了 肉 类 蔬菜, 水果、 饮料 以 及 生日 蛋糕 的 价格 ,经 过 整理 和 分 析 得 
到 一 张 表格 ,内容 是 每 个 店铺 中 各 种 食材 的 价格 ,以 便 对 比 和 选择 ,这 个 过 程 称 为 数据 分 析 o 
但 显然 不 能 因为 白菜 的 价格 低 而 举办 一 场 “ 白 菜 盛宴 ”, 因 此 ,应 该 考虑 到 好 友 的 口味 、 各 种 
食材 的 营养 价值 .食材 之 间 的 搭配 以 及 做 饭 和 用 餐 的 时 间 ,最 后 综合 考虑 这 些 信息 ,得 出 一 
个 最 有 性 价 比 的 采购 方案 ,使 这 场 聚会 更 加 完美 ,这 个 过 程 称 为 数据 挖掘 。 

然而 ,数据 分 析 与 数据 挖掘 又 联系 紧密 、 相 辅 相 成 ,数据 分 析 的 结果 往往 需要 进一步 地 
挖掘 才能 得 到 更 加 清晰 的 结果 ,而 数据 挖掘 发 现 知识 的 过 程 也 需要 对 先 验 约束 进行 一 定 的 
调整 而 再 次 进行 数据 分 析 。 数 据 分 析 可 以 将 数据 变 成 信息 ,而 数据 挖掘 将 信息 变 成 知识 。 
如 果 需 要 从 数据 中 发 现 知识 ,往往 需要 数据 分 析 和 数据 挖掘 相互 配合 ,共同 完成 任务 。 


1.2 分 析 与 挖掘 的 数据 类 型 


数据 分 析 与 数据 挖掘 是 一 种 通用 的 技术 ,可 以 应 用 于 各 种 不 同类 型 的 数据 ,只 要 数据 中 
包含 一 定 的 实际 价值 ,都 应 当 可 以 被 分 析 和 挖掘 。 数 据 的 常见 形式 有 数据 库 数 据 数据 仓库 
数据 事务 数据 等 ,本 节 将 对 这 些 数据 类 型 进行 简单 介绍 。 


1. 数据 库 数据 


数据 库 系 统 (DataBase System,DBS) 是 由 一 组 内 部 相关 的 数据 ( 称 为 数据 库 ) 和 用 于 管 
理 这些 数 据 的 程序 组 成 ,通过 软件 程序 对 数据 进行 高 效 的 存储 和 管理 并 发 .共享 或 分 布 式 访 
Ta] , 当 系 统 发 生 故 障 时 ,数据 库 系统 应 当 保 证 数据 的 完整 性 和 安全 性 。 

关系 数据 库 是 目前 使 用 较为 成 熟 的 数据 库 形 式 , 基 于 关系 数据 库 模 型 的 数据 库 是 数据 
表 的 集合 ,其 中 每 个 表 都 有 一 个 唯一 的 名 字 。 每 个 表格 包含 一 个 或 多 个 用 列表 示 的 数据 属 
性 ,每 行 包含 一 个 数据 实体 ,被 唯一 的 关键 字 标 识 , 并 被 一 组 属性 描述 。 在 创建 数据 表 时 ,可 
以 根据 某 列 属性 值 的 数据 范围 进行 进一步 的 约束 ,例如 标识 员工 年 龄 的 列 不 可 能 出 现 小 于 
0 的 值 ,当然 ,出 现 很 大 的 值 (如 1000) 也 是 不 合理 的 。 

例如 , 某 超市 的 商品 销售 情况 可 以 用 关系 数据 表 表 示 ,如 表 1-2 所 示 。 
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表 1-2 商品 销售 记录 





商品 编号 商品 名 称 商品 单价 (元 /kg) 购买 数量 (kg) 总 价 ( 元 ) 
100001 苹果 6 2 12 
100002 香蕉 5 3 15 


100003 [E 3 4 12 





实际 上 ,用 于 存储 商品 销售 记录 的 表 还 会 包含 很 多 数据 ,例如 每 个 顾客 会 购买 多 种 商 
品 , 某 个 顾客 的 一 次 购物 数据 组 成 一 个 订单 ,数据 库 需 要 记录 购物 的 时 间 、 应 收取 金额 .实际 
收取 金额 等 数据 ,有 时 超市 会 进行 促销 ,商品 的 折扣 率 、. 折 扣 产生 的 金额 也 应 当 详 细 地 记录 
在 数据 表 中 。 

关系 数据 库 中 的 数据 可 以 通过 数据 库 查 询 进行 访问 ,数据 库 查 询 使 用 关系 查询 语言 ,如 
SQL(Structured Query Language, 结 构 化 查询 语言 )。 一 个 给 定 的 查询 语句 通过 数据 库 软 
件 程序 的 处 理 被 转换 成 一 系列 关系 操作 ,如 连接 、 选 择 、 投 影 等 。 例 如 ,可 以 通过 关系 查询 获 
得 “三 月 份 苹果 的 销售 量 是 多 少 ” 本 季度 哪 种 商品 销售 量 最 高 ”或 “哪个 月 的 总 收入 最 高 "等 
数据 。 

当 对 关系 数据 库 进行 数据 挖掘 时 ,可 以 通过 进一步 的 分 析 和 挖掘 发 现 更 有 意义 的 模式 ， 
例如 ,不 同年 龄 段 的 顾客 对 商品 的 喜好 程度 、 哪 些 商 品 的 销售 量 与 月 份 相关 、 哪 些 商品 通常 
会 同时 出 现在 一 张 订单 中 以 及 商品 包装 和 口味 的 变化 对 销售 量 有 什么 影响 等 。 通 常 来 说 ， 
这 些 问 题 是 商家 更 加 关注 的 。 


2. 数据 仓库 数据 


假设 上 面 提 到 的 超市 是 一 个 连锁 超市 , 它 在 全 国有 许多 连锁 店 ,由 于 销售 水 平和 面向 群 
体 的 不 同 ,不 同 的 区 域 需要 单独 管理 数据 库 , 当 需要 对 所 有 的 数据 进行 分 析 的 时 候 , 可 能 就 
会 面临 数据 分 散 等 问题 ,这 时 就 需要 用 到 数据 仓库 (Data Warehouse, DW) 。 

数据 仓库 使 用 特有 的 资料 存储 架构 ,对 数据 进行 系统 的 分 析 整 理 。 数 据 仓 库 通 过 数据 
清理 数据 变换 .数据 集成 ,数据 装 入 和 定期 数据 刷新 构造 ,本 书 第 4 章 将 详细 介绍 数据 仓库 
的 相关 知识 。 图 1-3 描述 了 数据 仓库 构造 和 使 用 的 过 程 。 

数据 库 的 数据 组 织 是 面向 任务 的 ,而 数据 仓库 中 的 数据 则 是 按照 主题 进行 组 织 的 。 主 
题 是 指 决策 者 进行 决策 时 所 关心 的 重点 内 容 。 例 如 : 连锁 超市 的 总 经 理 不 会 关心 某 个 超市 
每 天 卖 出 了 几 个 苹果 ,他 关心 的 是 每 个 地 区 、 每 种 商品 的 销售 数据 的 汇总 。 此 时 ,商品 销售 
即 为 主题 。 

通常 ,数据 仓库 使 用 数据 立方 体 的 多 维 数据 结构 建 模 ,其 中 每 个 维度 包含 模式 中 的 一 个 
或 一 组 属性 ,而 每 个 单元 保存 对 应 的 属性 值 。 数 据 立 方 体 可 以 从 多 个 维度 观察 数据 ,为 决策 
者 提供 整体 的 信息 。 

联机 分 析 处 理 (On-Line Analysis Processing. OLAP) 是 数据 仓库 系统 的 主要 应 用 ,用 
于 支持 复杂 的 分 析 操 作 ,允许 在 不 同 的 汇总 级 别 对 数据 进行 汇总 。 

数据 仓库 对 数据 的 分 析 提 供 了 强大 的 支持 ,但 进行 更 加 深入 的 分 析 依 然 需要 数据 挖掘 
工具 的 帮助 。 关 于 数据 仓库 、 联 机 分 析 处 理 技术 等 将 在 第 4 章 进行 更 加 详细 的 介绍 。 
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图 1-3 数据 仓库 的 构造 和 使 用 过 程 


3. 事务 数据 
事务 数据 库 的 每 个 记录 代表 一 个 事务 ,例如 一 个 车 次 的 订 票 .顾客 的 一 个 订单 等 。 通 常 
来 说 ,一 个 事务 由 一 个 唯一 的 标识 号 和 一 组 描述 事务 的 项 组 成 ,有 了 时 也 需要 一 些 附加 信息 表 
示 事 务 的 其 他 信息 ,如 对 商品 的 描述 等 。 
依然 以 超市 销售 的 商品 为 例 , 一 个 商品 销售 的 事务 如 表 1-3 所 示 。 
表 1-3 销售 事务 数据 表 


事务 编号 商品 编号 





T1001 1,2,5,7,12 
T1002 2,5,8,10 





通过 这 样 的 数据 表 , 可 以 发 现 多 个 项 在 一 个 事务 中 同时 出 现 ,这 在 现实 中 有 重要 的 意 
义 。 例 如 : 购买 了 牛奶 的 顾客 很 可 能 会 同时 购买 面包 。 通 过 这 些 事务 数据 ,决策 者 可 以 做 
出 相应 的 促销 策略 ,如 将 面包 和 牛奶 放置 在 相近 的 位 置 , 以 期 销售 更 多 的 商品 。 


4. 数据 矩阵 


在 一 个 数据 集中 ,如 果 数 据 对 象 的 所 有 属性 都 是 具有 相同 性 质 的 数值 型 数据 ,那么 这 个 
数据 集 就 可 以 用 和 矩阵 表示 。 例 如 表 1-4 高 尾 花 数据 集 的 部 分 数据 实例 。 该 数据 集 由 三 种 不 
同类 型 的 高 尾 花 组 成 ,其 中 每 种 类 型 具有 50 个 样本 。 表 中 每 一 行 代表 一 个 数据 对 象 ,可 以 
看 作 是 多 维 空间 中 的 一 个 点 ,每 一 列 代 表 数 据 对 象 的 一 种 属性 ,m 个 数据 对 象 和 个 属性 构 
成 一 个 m n 的 数据 矩阵 。 

通过 将 每 个 数据 对 象 映射 到 多 维 空间 中 的 点 (或 向 量 ), 可 以 根据 数据 对 象 的 空间 位 置 
关系 进行 分 类 和 聚 类 操作 ,空间 上 距离 相近 的 两 个 数据 对 象 被 认为 是 同一 个 类 型 ,而 空间 上 
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距离 较 远 的 两 个 数据 对 象 是 不 同 的 类 型 。 
表 1-4 车 尾 花 数据 集 实例 (单位 : cm) 
ESKE 花 昔 宽 度 ERKE TERESE RE 
Setosa 5.1 3:5 1.4 0.2 
Setosa 4.9 3.0 1.4 0.2 
Versicolor 7.0 3.2 4.7 1.4 
Versicolor 6.4 3.2 4.5 1.5 
Virginica 6.3 3.3 6.0 2.5 
Virginica 5.8 2.7 5.1 19 





一 个 更 加 典型 的 应 用 是 对 文档 的 分 类 ,根据 不 同文 档 出 现 某 些 关键 词 的 频率 的 不 同 ,可 
以 将 文档 划分 为 不 同 的 类 型 。 一 个 文档 - 词 矩 阵 的 实例 如 表 1-5 所 示 , 其 中 ,表格 中 的 数据 
为 关键 词 出 现 的 次 数 ,由 于 频数 有 较 大 的 局 限 性 ,实际 应 用 中 会 采用 更 加 具有 代表 性 的 方 
法 ,如 TF-IDF 方法 。 根 据 表 中 的 数据 可 以 看 出 ,文档 1 和 文档 2 具有 相同 的 类 型 ,文档 3 
和 文档 4 具有 相同 的 类 型 ,如果 考 虑 到 词 的 具体 含义 , 则 前 两 个 文档 偏向 于 介绍 数据 挖掘 ， 
而 后 两 个 文档 介绍 的 很 可 能 是 算法 。 
表 1-5 文档 - 词 矩 阵 实例 


数据 挖掘 数据 分 析 算 法 复杂 度 








5. 图 和 网 状 数据 


图 和 网 状 结构 通常 用 来 表示 不 同 节点 之 间 的 联系 ,如 人 际 关系 网 、 网 站 之 间 的 相互 链接 
关系 等 。 例 如 ,通过 分 析 微 博 上 的 人 脉 关 系 可 以 得 到 不 同 群 体 的 喜好 ,以 及 哪些 人 被 关注 的 
程度 很 高 ,对 热点 话题 起 主导 作用 。 图 和 网 状 数据 往往 包含 重要 的 信息 ,但 其 结构 复杂 ,对 
数据 分 析 和 数据 挖掘 提出 了 较 高 的 要 求 。 

一 个 典型 的 应 用 就 是 搜索 引擎 对 网 站 页 面 链接 关系 的 分 析 。 一 般 来 说 ,被 指向 次 数 越 
多 的 网 页 ,其 重要 程度 越 高 .被 指向 次 数 较 少 的 网 页 ,其 重要 程度 较 低 。 搜 索引 擎 通过 分 析 
海量 的 网 页 链接 关系 , 找 出 重要 程度 更 高 的 网 页 反馈 给 用 户 , 得 到 更 好 的 搜索 结果 。 如 
图 1-4 所 示 ,每 个 节点 代表 一 个 网 页 ,有 向 边 表示 网 页 间 的 链接 关系 。 著 名 的 网 页 排名 算法 
PageRank 就 是 通过 分 析 网 页 之 间 的 链接 关系 给 出 网 页 的 重要 程度 的 。 


6. 其 他 类 型 的 数据 


除了 上 述 提 到 的 关系 数据 库 数 据 数据 仓库 数据 、 事 务 数据 数据 矩阵 以 及 图 和 网 状 数 
据 以 外 ,还 有 许多 不 同形 式 的 其 他 数据 ,如 与 时 间 相关 的 序列 数据 (不 同时 刻 的 气温 、 股 票 市 
场 的 历史 交易 数据 等 ) ,数据 流 ( 监 控 中 的 视频 数据 流 等 )、 多 媒体 数据 (视频 、 音 频 、 文 本 和 图 
像 数据 等 )。 这 些 不 同形 式 和 结构 的 数据 给 数据 分 析 和 数据 挖掘 带 来 了 新 的 挑战 。 


"oc 


图 1-4 网 页 链接 关系 图 


这 些 类 型 的 数据 中 也 包含 着 各 种 知识 。 例 如 ,可 以 通过 挖掘 股票 市 场 的 历史 交易 数据 
发 现 股票 的 趋势 ,制定 合理 的 投资 策略 :通过 挖掘 地 铁 站 不 同时 间 段 的 客流 量 数据 ,并 根据 
挖掘 结果 安排 列车 的 首 末 班 时 间 以 及 两 辆 列车 之 间 的 时 间 间 隔 ; 通 过 挖掘 不 同时 间 段 车 辆 
流量 信息 ,并 根据 得 到 的 结果 调整 交通 指示 灯 的 时 间 ,达到 更 高 的 运输 效率 ;通过 挖掘 与 “ 数 
据 挖掘 ?领域 相关 的 文献 ,可 以 了 解 该 领域 在 不 同 的 历史 时 期 关注 的 热点 问题 的 演变 ;通过 
挖掘 在 线 销 售 平台 上 顾客 发 表 的 评论 ,可 以 根据 不 同 顾客 的 意见 提供 更 好 的 服务 。 分 析 和 
挖掘 这 些 类 型 的 数据 可 能 需要 更 复杂 的 机 制 , 但 它们 也 为 数据 挖掘 提出 了 具有 挑战 性 和 现 
实意 义 的 问题 。 


1.3 数据 分 析 与 数据 挖掘 的 方法 


1. 频繁 模式 


顾名思义 ,频繁 模式 就 是 在 数据 集中 频繁 出 现 的 模式 。 通 常 来 说 ,多 次 出 现 的 事物 可 能 
具有 特殊 的 意义 。 因 此 ,挖掘 频繁 模式 可 以 发 现 包含 在 数据 集中 的 有 趣 的 关联 。 

频繁 模式 广泛 应 用 于 信用 卡 分 析 、 患 者 就 诊 分 析 以 及 购物 车 分 析 等 方面 ,其 中 ,购物 车 
分 析 在 生活 中 最 为 普遍 。 在 超市 中 ,如 果 知 道 哪 些 商品 经 常 一 起 出 售 ,就 可 以 将 这 些 商品 摆 
放 在 距离 较 近 的 位 置 , 既 方便 了 顾客 选 购 ,又 能 增加 销售 量 。 


2. 分 类 与 回归 


分 类 是 指 根据 已 经 具有 类 别 标签 的 数据 集 建立 分 类 模型 ,并 通过 该 模型 预测 不 具有 类 
别 标签 的 数据 属于 哪 种 类 别 。 常 见 的 分 类 算法 有 决策 树 、 朴 素 贝 叶 斯 分 类 、 支 持 向 量 机 以 及 
神经 网 络 等 。 一 个 神经 网 络 的 示意 图 如 图 1-5 所 示 ,输入 层 为 身高 和 体重 的 数据 ,中 间 层 为 
输入 数据 在 高 维 空间 中 的 特征 表示 ,输出 层 表示 回归 的 结果 ,数值 较 大 的 维度 对 应 的 结果 为 
预测 值 。 

分 类 是 通过 建立 模型 预测 离散 的 标签 (类 别 ), 而 回归 则 是 通过 建立 连续 值 模 型 推断 新 
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图 1-5 神经 网 络 示意 图 


的 数据 的 某 个 数值 型 属性 。 

例 1.1 分 类 与 回归 。 

已 知 最 近 一 个 月 中 每 天 的 温度 、 湿 度 以 及 风速 的 数据 ,并 根据 这 些 数据 建立 了 一 个 预测 
“今天 是 否 适合 踢 足 球 ” 的 模型 , 当 给 出 一 组 新 的 数据 时 ,该 模型 给 出 “适合 ”或 “不 适合 ”的 回 
答 ,这 是 一 个 分 类 的 过 程 。 

如 果 不 是 用 来 预测 “今天 是 否 适合 踢 足 球 ”, 而 是 根据 今天 的 天 气 状况 预测 明天 的 温度 ， 
由 于 温度 使 用 连续 的 实数 表示 ,所 以 这 就 是 一 个 回归 的 例子 。 


3. 聚 类 分 析 


聚 类 就 是 把 一 些 对 象 划分 为 多 个 组 或 者 聚 簇 , 从 而 使 同 组 内 对 象 间 比 较 相 似 而 不 同 组 
对 象 间 差异 较 大 。 与 分 类 、 回 归 等 不 同 的 是 , 聚 类 过 程 的 输入 对 象 没有 与 之 关联 的 目标 信 
息 , 因 此 , 聚 类 通常 归于 无 监督 学 习 , 由 于 无 监督 算法 不 需要 带 有 标签 数据 ,所 以 适用 于 许多 
难以 获取 标签 数据 的 应 用 。 

例 1.2 聚 类 分 析 。 

通信 公司 根据 “工作 时 间 通 话 时 长 “其 他 时 间 通 话 时 长 “本 地 通话 时 长 "等 属性 对 用 户 
进行 聚 类 分 析 , 可 以 将 用 户 划 分 为 “商务 用 户 “ 普 通用 户 ” 以 及 “ 较 少 使 用 用 户 ”。 根 据 分 析 
得 到 的 结果 ,通信 公司 可 以 调整 现 有 的 资费 方案 ,使 不 同 阶段 的 用 户 都 能 获得 更 好 的 通话 
体验 。 


4. 离 群 点 分 析 


离 群 点 是 指 全 局 或 局 部 范围 内 偏离 一 般 水 平 的 观测 对 象 。 一 般 情况 下 , 离 群 点 会 被 当 
作品 声 而 丢弃 。 但 在 某 些 特殊 的 应 用 中 , 离 群 点 由 于 有 着 特殊 的 意义 而 引起 了 研究 者 的 

例 1.3 离 群 点 分 析 。 

一 般 来 说 ,每 个 人 有 自己 相对 固定 的 消费 习惯 。 当 发 现 某 个 人 的 信用 卡 在 不 经 常 消费 
的 地 区 短 时 间 内 消费 了 大 量 的 金额 , 则 可 以 认定 这 张 卡 的 使 用 情况 异常 ,可 能 是 出 现 信 用 卡 
被 资 或 恶意 刷卡 的 情况 。 通 过 对 这 些 异 常情 况 的 研究 ,可 以 及 时 发 现 并 采取 措施 ,减少 或 避 
免 相 应 的 损失 。 
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1.4 数据 分 析 与 数据 挖掘 使 用 的 技术 


数据 挖掘 是 一 门 涉及 面 非常 广泛 的 交叉 学 科 , 它 吸纳 了 统计 学 ,线性 代数 .概率 论 .数据 

库 和 数据 仓库 ,信息 检索 ,模式 识别 、 高 性 能 计算 、 云 计算 、 机 器 学 习 等 许多 领域 的 大 量 技术 。 

与 各 学 科 的 紧密 联系 极 大 地 促进 了 数据 分 析 和 数据 挖掘 的 迅速 发 展 和 广泛 应 用 ,本 节 讨论 
- 些 与 数据 分 析 和 数据 挖掘 相关 的 技术 和 方法 。 


1. 统计 学 方法 


统计 学 是 通过 对 数据 进行 收集 ,整理 .分 析 和 描述 ,从 而 达到 对 研究 对 象 本 质 的 理解 和 
表示 ,因此 ,统计 学 与 数据 挖掘 有 着 很 大 的 联系 。 

在 实际 生活 中 ,通常 有 一 些 过 程 无 法 通过 理论 分 析 直 接 获 得 模型 ,但 可 以 通过 直接 或 间 
接 测 量 的 方法 获得 描述 目标 对 象 的 相关 变量 的 具体 数据 ,用 来 刻画 这 些 变量 之 间 关 系 的 数 
学 函数 称 为 统计 模型 。 

统计 模型 广泛 应 用 于 数据 建 模 , 例 如 ,数据 中 通常 会 包含 噪声 ,甚至 数据 值 缺失 ,可 以 使 
用 统计 模型 对 有 噪声 和 缺失 的 数据 进行 建 模 ,在 数据 分 析 和 数据 挖掘 中 可 以 使 用 该 模型 处 
理 噪声 和 数据 缺失 的 情况 。 反 过 来 ,在 数据 挖掘 过 程 得 到 结果 时 ,也 可 以 使 用 统计 学 方法 检 
验 结果 是 否 符合 实际 。 

将 统计 学 方法 应 用 于 数据 挖掘 是 十 分 有 益 的 ,但 如 何 对 大 型 数据 集 使 用 统计 学 方法 仍 
是 一 项 重大 的 挑战 。 统 计 学 方法 通常 需要 复杂 的 运算 ,因此 ,在 应 对 大 型 数据 集 时 ,计算 开 
销 将 成 为 系统 的 瓶颈 ,对 于 需要 实时 处 理 的 数据 来 说 ,这 将 变 得 更 加 困难 。 





2. 机 器 学 习 


机 器 学 习 是 涉及 多 个 领域 的 交叉 学 科 ,主要 研究 计算 机 如 何 像 人 类 学 习 知 识 那 样 自主 
地 分 析 和 处 理 数据 ,做 出 智能 的 判断 ,并 通过 获得 的 新 知识 对 自身 进行 发 展 和 完善 。 
例如 ,通过 对 一 组 手写 数字 的 实例 进行 学 习 之 后 ,学 习 程 序 可 以 对 新 的 手写 数字 进行 识 


别 。 一 个 经 典 的 手写 数字 数据 集 称 为 MNIST 数据 集 ， 
它 包含 数 万 张 包 含 手写 数字 的 图 像 , 一 组 图 像 的 样 例如 EN 
图 1-6 所 示 ,数据 集中 的 每 个 数字 占用 28X28 像素 。 

在 机 器 学 习 领 域 ,研究 比较 广泛 的 有 监督 学 习 、 无 
监督 学 习 、 半 监督 学 习 等 ,下 面 对 这 几 种 不 同 的 学 习 方 
法 进行 简要 的 介绍 。 

(1) 监督 学 习 

监督 学 习 需 要 在 有 标记 的 数据 集 上 进行 。 以 MNIST 手写 数字 数据 集 为 例 , 对 于 训练 
数据 集中 的 每 一 个 手写 数字 ,需要 标记 出 它 是 0 一 9 中 的 哪 一 个 数字 ,并 在 训练 的 过 程 中 将 
输入 数据 和 数据 标记 一 同 提供 给 学 习 器 。 在 训练 结束 后 ,将 不 在 训练 数据 集中 的 一 张 图 像 
输入 学 习 器 ,学习 器 将 根据 学 到 的 知识 给 出 该 图 像 中 包含 的 数字 ,因此 ,监督 学 习 是 一 个 分 
类 的 过 程 。 

监督 学 习 的 流程 如 图 1-7 所 示 。 





1-6 MNIST 数据 集 实例 
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图 1-7 监督 学 习 流 程 


(2) 无 监督 学 习 

无 监督 学 习 可 以 在 没有 标记 的 数据 集 上 进行 学 习 , 实 质 上 无 监督 学 习 是 一 个 聚 类 的 过 
程 。 仍 以 MNIST 手写 数字 数据 集 为 例 ,通过 对 数据 集 上 的 数据 进行 学 习 , 学 习 器 得 到 了 
10 个 不 同 的 类 别 , 这 10 个 类 别 对 应 0 一 9 这 10 个 数字 。 当 将 一 个 新 的 手写 数字 的 图 像 输 
人 学 习 器 之 后 ,学 习 器 会 给 出 该 图 像 属于 这 10 个 类 别 中 的 哪 一 个 。 但 是 ,由 于 训练 集 并 没 
有 任何 标记 ,学 习 器 不 知道 每 个 类 别 代表 的 数字 是 什么 ,或 者 说 ,学 习 器 不 知道 每 个 类 别 代 
表 的 实际 语义 是 什么 。 

(3) 半 监 督学 习 

半 监 督学 习 在 学 习 过 程 中 使 用 标记 和 未 标记 的 数据 。 半 监督 学 习 主 要 考虑 如 何 利用 少 
量 有 标记 的 数据 和 大 量 未 标记 的 数据 进行 学 习 , 其 中 ,标记 的 数据 用 来 学 习 模 型 ,而 未 标记 
的 数据 用 来 进一步 改进 类 的 边界 。 如 图 1-8 所 示 ,使 用 "十 ”表示 正 实例 “一 ”表示 负 实 例 ， 
而 实心 圆 表示 未 标记 数据 ,如 果 只 考虑 有 标记 的 数据 进行 分 类 ,那么 虚线 是 分 割 两 种 不 同类 
型 的 最 佳 决策 边界 , 当 将 未 标记 的 数据 考虑 进去 之 后 ,可 以 将 决策 边界 改 为 实 线 。 其 中 ,在 
正 实例 一 侧 出 现 的 负 实例 很 可 能 是 噪声 或 离 群 点 。 

从 机 器 学 习 的 学 习 方 式 和 方法 可 以 看 出 , 它 和 数据 挖掘 有 许多 相似 之 处 。 机 器 学 习 通 
过 自主 学 习 改 进 自身 ,提高 预测 的 准确 性 。 除 此 之 外 ,数据 挖掘 也 非常 关注 挖掘 方法 在 大 型 
数据 集 上 的 有 效 性 。 


3. 数据 库 系统 与 数据 仓库 


数据 库 系统 是 为 了 解决 数据 处 理 方 面 的 问题 而 建立 起 来 的 数据 处 理 系统 ,注重 于 为 用 
户 创建 .维护 和 使 用 数据 库 。 巾 于 文件 系统 不 支持 对 任意 数据 的 快速 访问 ,而 这 在 数据 量 迅 
速 增 大 时 至 关 重 要 。 为 了 实现 数据 的 快速 访问 ,需要 使 用 许多 优化 技术 ,这 些 技术 通过 数据 
库 系统 实现 ,并 提供 给 用 户 简单 的 数据 库 语言 操作 数据 。 许 多 数据 挖掘 的 任务 都 需要 处 理 
大 型 数据 集 ,因此 ,数据 挖掘 可 以 利用 数据 库 技 术 在 大 型 数据 集 上 高 效 地 存储 和 管理 数据 ， 





图 1-8 半 监 督学 习 实 例 


以 满足 复杂 的 数据 分 析 需 求 。 
数据 仓库 汇集 了 来 自 多 个 不 同 数据 源 的 数据 ,通过 数据 仓库 可 以 在 不 同 维度 合并 数据 ， 
形成 数据 立方 体 ,便于 从 不 同 角度 对 数据 进行 分 析 和 挖掘。 


4. 模式 识别 


人 们 在 认识 事物 的 时 候 , 常 常 要 通过 将 它 和 其 他 事物 进行 对 比 ,从 而 发 现 其 不 同 之 处 ， 
并 根据 对 比 结果 和 先前 的 认 知 将 相似 的 事物 归 类 。 人 的 这 种 思维 方式 就 构成 了 对 不 同事 物 
“模式 ”的 识别 。 随 着 计算 机 技术 的 不 断 进步 和 发 展 , 人 们 希望 计算 机 也 能 够 像 人 类 一 样 具 
有 这 种 能 力 ,帮助 人 们 完成 一 些 繁重 的 任务 。 

模式 识别 的 研究 内 容 非 常 广泛 ,包括 文字 识别 .语音 识别 .图 像 识别 、 医 学 诊断 以 及 指纹 
识别 等 ,在 生活 中 也 有 着 非常 多 的 应 用 。 例 如 ,手机 、 平 板 电脑 等 电子 产品 丰富 着 人 们 的 生 
活 , 但 每 次 解锁 都 需要 输入 较 长 的 密码 却 给 人 们 带 来 了 诸多 不 便 , 而 借助 于 模式 识别 技术 发 
展 起 来 的 声 纹 解锁 和 指纹 解锁 技术 很 好 地 解决 了 这 个 问题 。 

模式 识别 的 本 质 就 是 抽象 出 不 同事 物 中 的 模式 ,并 根据 这 些 模 式 对 事物 进行 分 类 或 聚 
类 的 过 程 ,在 很 多 情况 下 对 数据 挖掘 有 着 很 重要 的 借鉴 意义 。 

5. 高 性 能 计算 

数据 挖掘 研究 的 是 在 海量 数据 中 发 现 规律 和 知识 ,通常 来 说 ,在 数据 量 很 小 的 时 候 , 计 
算 机 能 够 很 好 地 处 理 这 些 问 题 ,但 随 着 数据 量 的 不 断 增 大 ,这 些 问 题 就 会 变 得 越 来 越 困 难 ， 
甚至 无 法 处 理 。 此 时 就 需要 考虑 高 性 能 计算 的 相关 技术 。 

高 性 能 计算 是 指 突破 单 台 计算 机 资源 不 足 的 限制 ,使 用 多 个 处 理 器 或 多 台 计 算 机 共同 
完成 同一 项 任务 的 计算 环境 。 例 如 ,常见 的 天 气 预报 就 使 用 了 高 性 能 计算 的 技术 ,由 于 天 气 
不 仅 和 当地 的 环境 有 关 , 还 可 能 和 周围 的 气温 气压 有 很 大 关系 ,甚至 海上 的 某 个 气流 也 可 
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能 对 陆地 上 的 天 气 产生 很 大 的 影响 ,如 果 只 采用 单 台 计 算 机 处 理 这 些 数 据 , 则 可 能 需要 上 百 
年 的 时 间 , 即 使 计算 出 来 也 没有 任何 意义 了 ,而 采用 高 性 能 计算 技术 能 够 及 时 、 高 效 地 分 析 
和 处 理 海量 的 气象 数据 ,得 到 较为 精确 的 结果 ,大 大 方便 了 人 们 的 生产 和 生活 。 


1.5 应 用 场景 及 存在 的 问题 


1.5.1 数据 分 析 与 数据 挖掘 的 应 用 


作为 跨 学 科 的 通用 技术 ,数据 分 析 与 数据 挖掘 已 经 在 许多 领域 获得 了 丰硕 的 成 果 , 本 节 
将 通过 几 个 样 例 说 明 数 据 分 析 与 数据 挖掘 在 不 同 领域 的 应 用 。 


1. 商务 智能 


在 商务 智能 方面 ,通过 数据 挖掘 等 技术 可 以 获得 隐藏 在 各 种 数据 中 的 有 利信 息 , 从 而 帮 
助 商家 进一步 调整 营销 策略 ,如 根据 顾客 的 购买 习惯 调整 商品 摆 放 的 位 置 。 

在 大 型 超市 中 ,具有 相似 功能 的 商品 往往 集中 放置 在 同一 个 区 域 ,因为 顾客 通常 需要 多 
次 对 比 才能 选 出 最 满意 的 商品 。 但 有 些 时 候 ,看 上 去 没有 任何 联系 的 两 种 商品 也 被 放置 在 
同一 区 域 , 一 个 著名 的 例子 就 是 “尿布 与 啤酒 >。 某 超市 通过 对 销售 数据 的 分 析 和 挖掘 发 现 ， 
在 购买 尿布 的 人 群 中 有 很 多 人 同时 也 购买 了 啤酒 ,于 是 超市 将 啤酒 和 尿布 摆 在 一 起 销售 ,大 
大 提高 了 二 者 的 销量 。 通 过 实际 的 调查 发 现 ,一些 年 轻 的 父亲 在 下 班 后 经 常 要 去 超市 购买 
婴儿 的 尿布 ,而 其 中 一 部 分 人 通常 会 为 自己 购买 啤酒 。 

这 种 现象 在 在 线 销 售 平台 也 很 普遍 。 当 购买 或 浏览 了 一 些 商 品 之 后 ,通常 会 在 显眼 的 
位 置 提示 “关注 这 些 商 品 的 人 同时 也 浏览 了 以 下 商品 *"。 如 果 这 些 推荐 的 商品 正 是 顾客 需要 
的 ,那么 这 些 商品 的 销售 量 就 会 相应 地 提高 。 这 些 精确 的 商品 推荐 就 依赖 于 对 大 量 销 售 数 
据 的 分 析 与 挖掘 。 


2. 信息 识别 


信息 识别 是 指 信息 接收 者 从 一 定 的 目的 出 发 ,运用 已 有 的 知识 和 经 验 , 对 信息 的 真 伪 
性 有 用 性 进行 辨识 和 甄别 ,如 电子 邮件 极 大 地 方便 了 人 们 的 交流 ,但 经 常 收 到 垃圾 邮件 也 
让 人 们 头痛 不 已 。 由 于 邮件 内 容 大 部 分 是 文本 数据 ,垃圾 邮件 检测 可 以 通过 简单 的 关键 词 
过 滤 实 现 , 但 这 样 很 有 可 能 错过 一 些 重要 的 邮件 。 实 际 上 ,垃圾 邮件 检测 是 一 个 二 元 分 类 的 
过 程 , 即 判断 一 封 邮 件 是 正常 邮件 还 是 垃圾 邮件 。 除 了 关键 词 以 外 ,往往 需要 根据 关键 词 出 
现 的 位 置 和 频率 进行 判断 ,有 时候 还 需要 考虑 发 件 人 的 邮件 地 址 、IP 地 址 以 及 是 否 与 收 件 
人 是 好 友 关 系 等 信息 。 通 过 对 大 量 邮件 的 分 析 和 挖掘 获得 垃圾 邮件 的 特征 和 模式 ,大 大 提 
高 了 垃圾 邮件 的 识别 率 ,并 防止 错过 重要 的 正常 邮件 。 


3. 搜索 引擎 


搜索 引擎 使 在 互联 网 上 检索 自己 需要 的 内 容 变 得 更 加 方便 和 快捷 , 它 的 主要 任务 就 是 
根据 用 户 提供 的 关键 词 ,在 互联 网 上 搜索 用 户 最 需要 的 内 容 。 
用 户 的 期 望 是 准确 而 高 效 地 获得 相关 的 信息 ,但 互联 网 上 的 数据 是 海量 的 ,而 且 正 在 以 


惊人 的 速度 增加 ,一 般 的 数据 处 理 和 分 析 方 法 无 法 完成 这 样 的 任务 ,搜索 引擎 常常 需要 数 以 
万 计 的 计算 机 共同 挖掘 这 些 数 据 。 

其 次 ,将 搜索 结果 以 怎样 的 顺序 提供 给 用 户 也 是 一 个 具有 挑战 性 的 问题 。 一 些 网 站 为 
了 获得 较 高 的 排名 ,可 能 会 提供 虚假 的 关键 词 ;一 些 关 键 词 在 不 同 的 领域 可 能 会 有 完全 不 同 
的 意义 ;用 户 提供 的 关键 词 可 能 有 其 他 不 同 的 表达 形式 ,或 者 某 些 意义 相近 的 词 ; 一 些 词 在 
近期 成 为 热门 的 词汇 ,与 某 个 特定 的 人 或 事 相 关联 等 。 这 些 问 题 都 会 对 搜索 结果 的 顺序 产 
生 很 大 的 影响 , 当 搜 索引 擎 为 用 户 返 回 搜索 结果 之 后 ,用 户 会 点 击 自己 真正 感 兴趣 的 网 页 而 
忽略 其 他 不 重要 的 信息 ,搜索 引擎 根据 用 户 对 结果 的 反应 判断 是 否 应 该 调整 这 些 结果 的 顺 
序 ,为 用 户 提供 更 好 的 体验 。 


4. 辅助 医疗 


在 科技 不 断 进 步 的 今天 ,人 们 对 健康 的 要 求 越 来 越 高 ,然而 有 些 疾病 不 容易 被 发 现 和 诊 
断 。 由 于 不 同 的 疾病 可 能 会 引起 相同 的 反应 ,同一 种 疾病 在 不 同时 期 或 不 同人 群 之 间 也 会 发 
生 不 同 的 反应 ,即使 是 一 名 医生 ,可 能 也 需要 几 年 甚至 十 几 年 的 经 验 才能 掌握 这 些 疾 病 的 症状 
和 治疗 方法 。 通 过 数据 分 析 和 数据 挖掘 的 方法 对 大 量 历史 诊断 数据 进行 分 析 和 挖掘 ,得 出 各 
种 疾病 在 不 同时 期 和 人 和 群 中 的 症状 , 当 遇 到 新 的 病人 时 ,数据 分 析 和 数据 挖掘 得 到 的 这 些 结果 
有 助 于 医生 对 病人 的 病情 进行 有 效 的 判断 ,可 以 早日 发 现 疾病 所 在 ,便于 控制 病情 和 治疗 。 


1.5.2 存在 的 主要 问题 


虽然 数据 分 析 和 数据 挖掘 已 经 在 很 多 领域 获得 了 巨大 的 成 功 ,但 不 可 否认 的 是 ,数据 分 
析 与 数据 挖掘 依然 存在 一 些 有 挑战 性 的 问题 。 

(1) 数据 类 型 的 多 样 性 

数据 分 析 与 数据 挖掘 通常 涉及 多 种 不 同 的 数据 类 型 , 同 种 类 型 的 数据 也 可 能 具有 不 同 
的 结构 ,如 何 综合 这 些 不 同类 型 和 不 同 结构 的 数据 从 而 得 到 对 用 户 有 意义 的 结果 是 一 项 有 
挑战 性 的 工作 。 

(2) 高 维度 数据 

数据 分 析 与 数据 挖掘 常常 涉及 海量 的 数据 以 及 高 维度 的 数据 ,传统 的 算法 在 数据 量 小 、 
数据 维度 低 的 情况 下 有 较 好 的 表现 , 随 着 数据 量 和 数据 维度 的 增加 ,必须 采用 其 他 策略 解决 
复杂 度 较 高 的 问题 。 例 如 , 当 需 要 处 理 的 数据 无 法 完整 地 放 到 内 存 时 ,本 来 很 简单 的 排序 工 
作 也 变 得 很 复杂 ; 当 数 据 维 度 很 高 时 ,计算 数据 在 空间 上 的 相对 关系 也 需要 使 用 特殊 的 数据 
结构 进行 辅助 。 

(3) 噪声 数据 

在 数据 分 析 与 数据 挖掘 的 过 程 中 ,经 常会 出 现 数据 包含 噪声 .数据 缺失 甚至 数据 错误 的 
情况 ,数据 缺失 可 能 会 导致 得 到 的 结果 不 佳 ,而 噪声 和 错误 很 有 可 能 导致 得 到 错误 的 结果 。 
同时 ,数据 的 来 源 错综复杂 ,时 效 性 和 准确 性 也 得 不 到 保证 。 

(4) 分 析 与 挖掘 结果 的 可 视 化 

数据 分 析 与 数据 挖掘 通常 会 得 到 隐藏 在 数据 之 中 的 规律 或 模式 ,这 些 规律 不 容易 理解 
和 解释 ,往往 需要 进一步 的 调查 和 结合 专业 知识 进行 分 析 和 理解 ,如 何 将 分 析 和 挖掘 的 结果 
以 容易 理解 、 便 于 观察 的 形式 提供 给 用 户 是 一 项 重大 的 挑战 。 
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(5) 隐私 数据 的 保护 

数据 分 析 与 数据 挖掘 涉及 大 量 的 数据 ,这 些 数据 中 包含 的 个 人 信息 等 隐私 部 分 会 有 被 
泄露 的 风险 。 近 几 年 来 ,一 些 互联 网 公司 发 生 了 大 量 用 户 信 息 泄露 的 事件 ,对 数据 安全 造成 
了 很 大 的 影响 。 因 此 ,如 何在 数据 保存 和 挖掘 的 过 程 中 保证 数据 的 安全 性 ,也 是 一 个 需要 深 
入 研究 的 问题 。 


1.6 本 书 结构 概述 


第 1 章 介 绍 数据 分 析 和 数据 挖掘 的 基本 概念 、 主 要 方法 以 及 实际 应 用 ,使 读者 在 深入 学 
习 之 前 对 数据 分 析 和 数据 挖掘 具有 简要 的 认识 。 

从 第 2 章 开始 深入 介绍 相关 的 技术 问题 。 该 章 介 绍 数 据 的 属性 和 基本 统计 描述 ,以 及 
数据 的 相似 性 和 相 异 性 度量 ,这 些 内 容 为 进一步 的 学 习 打下 了 基础 。 

数据 预 处 理 是 数据 挖掘 中 重要 的 一 步 ,第 3 章 介 绍 数 据 清理 ,数据 集成 以 及 数据 规约 的 
相关 概念 和 方法 ,为 数据 挖掘 提供 准确 的 数据 。 

第 4 章 讨论 数据 仓库 和 联机 分 析 处 理 的 相关 知识 ,数据 仓库 将 多 种 不 同 来 源 的 数据 集 
中 起 来 ,便于 从 多 个 维度 对 数据 进行 分 析 和 处 理 。 

第 5 章 介 绍 回归 分 析 的 相关 内 容 , 包 括 一 元 线性 回归 、 多 元 线性 回归 以 及 多 项 式 回归 ， 
回归 分 析 通 过 对 观测 数据 建立 多 种 变量 之 间 的 关系 分 析 数 据 内 在 的 规律 和 联系 ,用 于 对 数 
据 进行 评估 和 预测 。 

第 6 章 主要 介绍 频繁 模式 和 关联 规则 的 相关 概念 ,以 及 常用 的 挖掘 方法 ,该 章 最 后 讨论 
关联 模式 的 评估 问题 。 

分 类 和 聚 类 是 数据 分 析 和 数据 挖掘 的 重点 内 容 。 本 书 第 7 章 介 绍 了 决策 树 ,朴素 贝 叶 
斯 等 多 种 分 类 方法 。 

第 8 章 介 绍 基于 划分 的 聚 类 、 基 于 层次 的 聚 类 以 及 基于 密度 的 聚 类 ,这 一 章 内 容 丰 富 且 
有 一 定 的 难度 ,阅读 时 应 有 一 定 的 耐心 。 

第 9 章 首先 介绍 离 群 点 的 基本 概念 ,之 后 讨论 了 基于 距离 .统计 、 聚 类 和 分 类 的 多 种 离 
群 点 检测 的 方法 。 


1.7 习题 


1. 什么 是 数据 挖掘 ? 讨论 以 下 任务 是 否 属于 数据 挖掘 的 范畴 。 

(1) 计算 整个 班级 学 生 “ 数 据 分 析 与 数据 挖掘 ”这 门 课 的 平均 分 。 

(2) 根据 历史 信息 预测 某 公司 的 股票 价格 。 

(3) 根据 历史 销售 数据 和 顾客 经 常 查看 的 商品 ,为 顾客 推荐 其 可 能 需要 的 商品 。 
(4) 将 一 个 很 大 的 数 进行 质 因数 分 解 。 

2. 举例 说 明 数据 分 析 与 数据 挖掘 的 区 别 。 

3. 数据 库 和 数据 仓库 是 同一 个 概念 吗 ? 为 什么 ? 

A. 数据 挖掘 有 哪些 常用 的 方法 ? 

5. 除了 本 章 列举 的 例子 以 外 ,还 有 哪些 数据 分 析 与 数据 挖掘 在 实际 生活 中 的 应 用 ? 


"2 
数 du 


数据 预 处 理 是 数据 挖掘 过 程 的 第 一 个 主要 步骤 ,了 解数 据 才 能 为 分 析 与 挖掘 做 好 预 处 
理 。 本 章 介 绍 数据 的 属性 和 字段 .每 种 属性 所 对 应 的 数据 值 类 型 .数据 的 分 布 及 图 形 表示 形 
式 以 及 数据 的 相似 性 与 相 异 性 。 


2.1 数据 对 象 与 属性 类 别 


数据 对 象 又 称 样本 、 实 例 .数据 点 或 对 象 。 通 常 ,数据 对 象 用 属性 描述 ,一 个 数据 对 象 代 
表 一 个 实体 ,多 个 数据 对 象 组 成 了 数据 集 。 如 果 数 据 对 象 存放 在 数据 库 中 , 则 它们 是 数据 元 
组 。 也 就 是 说 ,数据 表 的 每 一 行 对 应 于 数据 对 象 ,而 每 一 列 则 对 应 于 属性 。 


2.1.1 属性 的 定义 


属性 (Attribute) 是 对 象 的 性 质 或 特性 , 它 因 对 象 而 异 ,或 随时 间 而 变化 。 

例如 ,眼球 颜色 因 人 而 异 , 而 物体 的 温度 随时 间 而 变 。 需 要 注意 的 是 ,眼球 颜色 是 一 种 
符号 属性 ,具有 少量 可 能 的 值 (棕色 ,黑色 , 蓝 色 ,绿色 , 淡 褐 色 ,…) ,而 温度 是 数值 属性 ,可 以 
取 无 穷 多 个 值 。 

属性 并 非 只 是 数字 或 符号 ,只 是 为 了 讨论 和 精细 地 分 析 对 象 的 特性 , 才 为 它们 赋予 了 数 
字 或 符号 。 在 数据 挖掘 中 ,属性 是 一 个 数据 字段 ,表示 数据 对 象 的 特征 。 


2.1.2 属性 的 分 类 


属性 的 类 型 由 该 属性 可 能 具有 的 值 的 集合 决定 。 属 性 可 以 分 为 以 下 几 类 : 标 称 属性 、 
二 元 属性 .序数 属性 、 数 值 属性 等 。 


1. 标 称 属性 


标 称 属性 (Nominal Attribute) 的 值 是 一 些 符号 或 事物 的 名 称 。 每 个 值 代 表 某 种 类 别 、 
编码 或 状态 ,因此 标 称 属性 又 可 称 为 是 分 类 的 (Categorical) 。 

例 2.1 标 称 属性 。 

“眼球 颜色 ”和 “性 别 " 是 人 的 两 种 属性 。 在 应 用 中 ,属性 “眼球 颜色 ”的 可 能 值 为 棕色 、 黑 
色 、 蓝 色 、 绿 色 和 淡 褐 色 。 属 性 “性 别 ” 的 取 值 可 以 是 男性 和 女性 。“ 眼 球 颜 色 ” 和 “性 别 ” 都 是 
标 称 属性 。 邮 政 编码 .雇员 ID 号 都 是 标 称 属 性 的 例子 。 

标 称 属性 的 值 不 仅仅 是 不 同 的 名 字 . 标 称 值 提供 了 足够 的 信息 用 于 区 分 对 象 。 
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2. 二 元 属性 

二 元 属性 (Binary Attribute) 是 标 称 属性 的 一 种 特殊 情况 , 它 只 有 两 个 类 别 或 状态 : 0 
或 1。 其 中 ,0 通常 表示 该 属性 不 出 现 , 而 1 表示 出 现 。 二 元 属性 又 称 为 布尔 属性 ,0 和 1 两 
种 状态 分 别 对 应 于 false 和 true。 

例 2.2 二 元 属性 。 

假设 一 位 患者 到 医院 检查 是 否 患 有 癌症 。 属 性 cancer test 是 二 元 的 ,其 中 值 1 表示 阳 
性 ( 即 串 有 癌症 ) ,0 表示 阴性 ( 即 不 是 癌症 )。 


3. 序数 属性 


序数 属性 (Ordinal Attribute) 的 属性 值 之 间 存 在 等 级 关系 。 在 序数 属性 中 ,其 可 能 的 
值 之 间 具 有 有 意义 的 序 或 秩 评定 (Ranking) 。 

例 2.3 序数 属性 。 

假设 “顾客 满意 度 ” 的 等 级 可 分 为 0- 很 不 满意 ,1- 不 太 满意 ,2- 中 性 ,3- 满 意 ,4- 很 满意 ,这 
些 值 具有 有 意义 的 先后 次 序 。 序 数 属性 的 其 他 例子 包括 成 绩 、 矿 石 的 硬度 和 街道 号 码 等 。 
序数 属性 的 值 提供 足够 的 信息 确定 对 象 的 顺序 。 


4. 数值 属性 


数值 属性 (Numeric Attribute) 是 定量 的 , 即 它 是 可 度量 的 量 , 用 整数 或 实数 值 表 示 。 数 
值 属性 可 以 是 区 间 标 度 的 或 比率 标 度 的 。 

(1) 区 间 标 度 属性 

区 间 标 度 (Interval-scaled) 属性 用 相等 的 单位 尺度 度量 。 区 间 属 性 的 值 有 序 ,可 以 为 
正 ,0 或 负 。 因 此 ,除了 值 的 秩 评定 之 外 ,这 种 属性 允许 比较 和 定量 评估 值 之 间 的 差 。 

例 2.4 区 间 标 度 属性 。 

“日 期 "是 区 间 标 度 属性 。2016 年 3 月 10 日 和 2016 年 3 月 21 日 相差 11 天。 此 外 , 温 
度 也 是 区 间 标 度 属性 的 例子 。 

(2) 比率 标 度 属性 

比率 标 度 (Ratio-scaled) 属 性 是 具有 固有 零点 的 数值 属性 。 简 单 地 说 ,如 果 度量 是 比率 
标 度 的 , 则 可 以 说 一 个 值 是 另 一 个 值 的 倍数 或 比率 。 此 外 ,这 些 值 是 有 序 的 ,因此 可 以 计算 
值 之 间 的 差 ,也 能 计算 均值 .中 位 数 和 众 数 。 

例 2.5 比率 标 度 属性 。 

当 温 度 用 绝对 标 度 测量 时 ,从 物理 意义 上 讲 ,2" 的 温度 是 1809 2 fii. 


2.2 数据 基本 统计 描述 


数据 基本 统计 描述 可 以 清楚 地 将 数据 的 全 貌 展示 出 来 ,并 且 展 示 数 据 的 走势 和 相关 性 。 
把 握 数 据 的 全 貌 是 成 功 进行 数据 预 处 理 的 前 提 条 件 。 
本 节 主 要 介绍 数据 的 中 心 趋势 度量 .数据 散布 度量 以 及 数据 的 图 形 显示 。 


2.2.1 中 心 趋势 度量 


中 心 趋势 度量 包括 均值 、 中 位 数 、 众 数 和 中 列 数 , 这 些 描述 性 统计 量 能 够 更 好 地 描述 数 
据 的 分 布 。 


1. 均值 


均值 (Mean) 一 般 指 平均 数 ,是 表示 一 组 数据 集中 趋势 的 量 数 ,是 指 一 组 数据 中 所 有 数 
据 之 和 除 以 这 组 数据 的 个 数 , 它 是 反映 数据 集中 趋势 的 一 项 指标 。 

A aa sao ，…'zN 为 某 数值 属性 X( 如 score) 的 N 个 观测 值 或 观测 。 该 值 集合 的 均值 如 
式 (2-1) 所 示 。 


N 








(2-1) 





= 


a UESTRE 
N N 

$2.6 均值 。 

假设 有 学 生 考 试 成 绩 的 值 : 60,45,33,77,80,100,100,90,70,65。 使 用 式 (2-1) 计 算 成 
绩 的 平均 值 : 


去 一 60 十 45 十 33 十 77 十 80 十 100 十 100 十 90 十 70 十 65 720 


10 10 1% 





因此 ,成绩 的 均值 为 72。 

截 尾 均值 CTrimmed Mean) 是 指 在 一 个 数列 中 ,去 掉 两 端的 极端 值 后 所 计算 的 算术 平 
均 数 ,也 称 为 切 尾 均值 。 截 尾 均值 一 般 用 于 比赛 评分 。 例 如 跳水 比赛 计 分 需要 在 去 除 最 高 
分 和 最 低 分 后 计算 平均 分 (跳水 比赛 中 的 平均 分 需要 乘 以 难度 系数 ) 。 


2. 加 权 算 术 均 值 


加 权 算 术 均 值 又 称 加 权 平均 (Weighted Mean)。 对 于 i 二 1,…,NN, 每 个 值 x; 都 有 一 个 
权重 w;。 权 重 反 映 它们 所 依附 的 对 应 值 的 意义 、 重 要 性 或 出 现 的 频率 。 加 权 算 术 平 均值 如 
式 (2-2) 所 示 。 


i= | O wa wes dnt deux 
wi +w dn + wy 





(2-2) 





RI 


例 2.7 加 权 算 术 平 均值 。 

某 学 生 的 某 一 科 的 考试 成 绩 如 下 : 平时 测验 成 绩 为 80 ,期 中 考试 成 绩 为 90, 期 末 考 试 
成 绩 为 95。 假 设 规定 的 科目 成 绩 的 计算 方式 是 平时 测验 成 绩 占 20% ,期 中 考试 成 绩 占 
30% ,期 末 考试 成 绩 占 50%。 本 例 中 每 个 成 绩 所 占 的 比重 即 为 权重 , 则 该 学 生 的 该 科目 成 
绩 为 


z 80 x 20% + 90 x 30% + 95 x 50% 
2096 +30% +50% 








90.5 





3. 中 位 数 
中 位 数 又 称 中 值 (Median) ,代表 一 个 样本 、 种 群 或 概率 分 布 中 的 一 个 数值 ,可 以 将 数值 
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数据 分 析 与 数据 挖 握 


集合 划分 为 相等 的 上 、 下 两 部 分 。 对 于 有 限 的 数 集 , 可 以 通过 把 所 有 观察 值 进行 高 低 排序 后 
找 出 正中 间 的 一 个 数值 作为 中 位 数 。 如 果 观 察 值 有 偶数 个 , 则 通常 取 最 中 间 的 两 个 数值 的 
平均 数 作 为 中 位 数 。 

例 2.8 中 位 数 。 

找 出 例 2.6 中 数据 的 中 位 数 。 将 该 数据 按 递增 顺序 排序 为 33,45,60,65,70,77,80， 
90,100,100。 因 为 观测 值 有 偶数 个 ,所 以 中 位 数 是 最 中 间 两 个 值 70 和 77 的 平均 值 。 


Wb (80979777 — 75,5. 


分 组 数据 中 位 数 (The Median of Grouped Data) 计 算 时 ,要 先 根据 N /2 确定 中 位 数 的 
位 置 ,并 确定 中 位 数 所 在 的 组 ,然后 使 用 式 (2-3) 计 算 中 位 数 的 近似 值 : 
N/2 — S, 
mM 


M, = L + =L xd (2-3) 


在 式 (2-3) 中 ,M. 表 示 中 位 数 ,L 表示 中 位 数 所 在 组 的 下 限 ,S。-;: 表 示 中 位 数 所 在 组 以 下 
各 组 的 累计 次 数 ,了 ,表示 中 位 数 所 在 组 的 次 数 ,d 表示 中 位 数 所 在 组 的 组 距 。 
例 2.9 分 组 数据 中 位 数 。 
K 2-1 为 某 公 司 员工 薪酬 的 分 组 数据 ,计算 数据 的 近似 分 组 数据 中 位 数 。 
表 2-1 员工 薪酬 分 组 数据 








薪酬 (元 频率 
1500 一 1599 110 
1600 一 1699 180 
1700—1799 320 
1800—1899 460 
1900— 1999 850 
2000— 2099 250 
2100—2199 130 
2200— 2299 70 
2300— 2399 20 
2400— 2499 10 


CD 判断 中 位 数 区 间 : 
N = 110 + 180 + 320 + 460 + 850 + 250 + 130 + 70 + 20 + 10 = 2400 
N/2 = 1200 
因为 
110--1804-320--460— 1070—1200—1070--850—1920 
所 以 1900—1999 为 对 应 区 间 。 
© 3x Hifi L—1900. N—2400,S,., —1070. fm —850.d —100, MR (2-3) f 








2000 — 1070 
M, = 1900 + ——s X 100 = 1915. 29 
因此 ,近似 分 组 数据 中 位 数 为 1915. 29. 


4. 众 数 
众 数 (Mode) 是 一 组 数据 中 出 现 次 数 最 多 的 数值 。 有 时 ,数组 中 有 多 个 众 数 , 众 数 用 M 


表示 。 简 单 地 说 , 众 数 就 是 一 组 数据 中 占 比例 最 多 的 那个 数 。 
例 2.10 RŽ 
在 例 2.6 中 ,数字 100 出 现 的 次 数 最 多 ,因此 众 数 为 100。 


5. 中 列 数 


中 列 数 (Midrange) 在 统计 中 指 的 是 数据 集中 最 大 值 和 最 小 值 的 算术 平均 值 。 
例 2.11 中 列 数 。 
找 出 例 2.6 中 数据 的 中 列 数 。 将 该 数据 按 递增 顺序 排序 为 33,45,60,65,70,77,80， 


90,100,100。 最 小 值 和 最 大 值 分 别 为 33 和 100, 则 中 列 数 为 33 十 100 一 66.5。 


2 
2.2.2 数据 散布 度量 
数据 散布 度量 包括 极 差分 位 数 . 四 分 位 数 、 方 差 和 标准 差 。 
1. 极 差 


极 差 又 称 全 距 (Range) ,是 集合 中 最 大 值 与 最 小 值 之 间 的 差距 , 即 最 大 值 减 最 小 值 后 所 
得 的 数据 。 

例 2.12 极 差 。 

例 2. 8 中 的 极 差 为 100—33=67, 


2. 分 位 数 和 四 分 位 数 


分 位 数 (Quantile) 是 取 自 数据 分 布 的 每 隔 一 定 间隔 上 的 点 ,把 数据 划分 成 大 小 基本 相 
等 的 连贯 集合 。 假 设 属性 X 的 数据 以 数值 递增 顺序 排列 ,然后 挑选 某 些 数据 点 ,以 便 把 数 
据 分 布 划 分 成 大 小 相等 的 连贯 集 ,这 些 数据 点 称 为 分 位 数 ,如 图 2-1 所 示 。 


25% 





9, 9; 9; 
图 2-1 某 变量 X 的 数据 统计 描述 显示 


给 定数 据 分 布 的 第 个 gq- 分 位 数 的 值 为 x ,使 小 于 zz 的 数据 值 最 多 为 k/g 个 ,而 大 于 zz 
的 数据 值 最 多 为 (g 一 &)/g 个 ,其 中 & 是 整数 ,使 0<k<g。 这 里 有 g 一 1 个 gq 分 位 数 。 

例如 ,四 分 位 数 中 的 3 个 数据 点 (Qi ,Q: ,Qs ) 把 数据 分 布 划分 成 4 个 相等 的 部 分 ,使 每 
部 分 表示 数据 分 布 的 四 分 之 一 。 这 3 个 数据 点 通常 被 称 为 四 分 位 数 (Quartile), 如 图 2-1 
所 示 。 

四 分 位 数 图 中 ,Q 又 称 为 “ 较 小 四 分 位 数 ”, 等 于 该 样本 中 所 有 数值 由 小 到 大 排列 后 第 
25% 的 数字 ;Q; 又 称 为 “中 位 数 ”, 等 于 该 样本 中 所 有 数值 由 小 到 大 排列 后 第 50% 的 数字 ;Qs 


m20 。 数据 分 析 与 数据 挖 所 


又 称 为 “ 较 大 四 分 位 数 ”, 等 于 该 样本 中 所 有 数值 由 小 到 大 排列 后 第 75% 的 数字 。 
Qi 和 Qs 之 间 的 距离 是 散布 的 一 种 简单 度量 , 它 给 出 被 数据 的 中 间 一 半 所 覆盖 的 范围 ， 
该 距离 称 为 四 分 位 数 极 差 (IQR) 。 四 分 位 数 极 差 如 式 (2-4) 所 示 。 
IQR = Q, 一 Q， (2-4) 
例 2.13 四 分 位 数 极 差 。 
7 人 组 成 的 旅游 小 团队 的 成 员 年 龄 分 别 为 17,19,22,24,25,28,34, 求 其 年 龄 的 四 分 
位 差 。 计 算 步骤 如 下 。 
O 计算 Qi Q; 的 位 置 。 
Q, 的 位 置 = (x 十 1)/4 = (7 +1)⁄/4 = 2 
Q, HE = 3X (n + 1)/4 = 3* (7+- 1)/4 = 6 
HI Q, 5; Qs 的 位 置 分 别 为 第 2 位 和 第 6 位 。 
© 确定 Q, 53 Q; 的 数值 。 























Q, = 19( 岁 ) 
Q, = 28( 岁 ) 
即 第 2 位 和 第 6 位 对 应 的 年 龄 分 别 为 19 岁 和 28 岁 。 
C 计算 四 分 位 数 极 差 。 
IQR = Q, — Q, 一 28 一 19 一 9( 岁 ) 
因此 ,四 分 位 数 极 差 为 9 岁 。 


3. 方差 和 标准 差 


方差 (Variance) 是 衡量 随机 变量 或 一 组 数据 离散 程度 的 度量 。 方 差 (样本 方差 ) 是 各 个 
数据 分 别 与 其 平均 数 之 差 的 平方 的 和 的 平均 数 。 
数值 属性 X 的 N 个 观测 值 zi ,zs，… ,zn 的 方差 如 式 (2-5) 所 示 : 


1 N 1 N 
2 n FIL 3 =2 "a 
c NZ (x = NZ Zi E (2-5) 


其 中 , 是 观测 的 均值 ,由 式 (2-1) 定 义 。 观 测 值 的 标准 差 o 1877 25 o^ ENIR. 
例 2.14 方差 和 标准 差 。 
例 2.6 中 ,利用 式 (2-1) 计 算 均 值得 到 ==72。 此 时 ,N==10, 利 用 式 (2-5) 得 到 方差 为 


g-— poe + 452 + 33* + 772 + 80* +100? + 1002 4- 90* 4- 70* 4- 65* )— 722 = 442.8 











PEZH o= 4/442. 82221. 04, 
2.2.3 数据 的 图 形 显示 


本 小 节 主 要 介绍 箱 图 、 饼 图 、 频 率直 方 图 和 散 点 图 等 基本 统计 图 形 显示 。 这 些 图 形 有 助 
于 将 数据 可 视 化 ,是 数据 预 处 理 的 前 提 。 


1. 箱 图 


箱 图 (又 称 箱 线 图 ,Box-plot) 是 一 种 用 来 描述 数据 分 布 的 统计 图 形 ,可 以 表现 观测 数据 
的 中 位 数 、 四 分 位 数 和 极 值 等 描述 性 统计 量 , 从 视觉 的 角度 观测 变量 值 的 分 布 情况 ,如 


图 2-2 所 示 。 主 要 包含 六 个 数据 节点 ,分 别 是 一 组 数据 的 上 边缘 (最 大 值 )、 上 四 分 位 数 
(Q;) 、 中 位 数 、 下 四 分 位 数 (Q, )、 下 边缘 (最 小 值 ) 以 及 异常 值 。 


























100 上 边缘 
上 四 分 位 数 
80 中 位 数 
下 四 分 位 数 
60 
下 边缘 
40 
setti 
$12.15 箱 图 。 
K 2-2 为 某 班级 学 生成 绩 表 。 
表 2-2 学 生成 绩 表 
课程 名 称 
学 号 
语文 数学 英语 
1 76 65 93 
2 90 95 81 
3 97 51 76 
4 7" 74 88 
5 70 78 66 
6 93 63 79 
7 86 91 83 
8 83 82 92 
9 78 75 78 
10 85 71 86 











CD. 分 别 求 出 表 2-2 中 所 示 数 据 的 下 四 分 位 数 、 最 大 值 、 最 小 值 \ 中 位 数 以 及 上 四 分 位 
数 , 如 表 2-3 所 示 。 





表 2-3 数据 表 
语文 数学 英语 
下 四 分 位 数 7T 64 78 
最 大 值 97 95 93 
最 小 值 70 51 66 
中 位 数 83 74 81 


上 四 分 位 数 88 80 87 
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C 根据 表 2-3 的 数据 ,得 到 如 图 2-3 所 示 的 学 生成 绩 箱 图 。 
120 


100 


97 95 93 
= 80 = 
80 二 74 


























z 3| 





语文 数学 英语 
一 下 四 分 位 数 -RAE ”一 最 小 值 ”= 中 位 数 = 上 四 分 位 数 
图 2-3 学 生成 绩 箱 图 





饼 图 (又 称 圆 形 图 或 饼 形 图 ,Pie Graph) 通 常用 来 表示 整体 的 构成 部 分 及 各 部 分 之 间 的 
比例 关系 。 饼 图 显示 一 个 数据 系列 中 各 项 的 大 小 与 各 项 总 和 的 比例 关系 。 


例 2.16 WE. 
K 2-4 为 百度 经 验 在 不 同年 龄 阶段 的 覆盖 率 。 图 2-4 为 表 2-4 百度 经 验 覆 盖 人 和 群 数据 
的 饼 图 。 
表 2-4 百度 经 验 覆盖 人 群 
19 岁 及 以 下 270 
20 一 29 岁 1248 
30—39 岁 1080 
40—49 岁 280 
50 岁 及 以 上 180 








=19 岁 及 以 下 520-2927 #30-392 40-497 mS RAE 
图 2-4 百度 经 验 覆 盖 人 群 饼 图 


3. 频率 直方 图 


频率 直方 图 (又 称 频率 分 布 直方 图 , Frequency Histogram) 是 在 统计 学 中 表示 频率 分 布 
的 图 形 。 在 直角 坐标 系 中 ,用 横 轴 表示 随机 变量 的 取 值 , 横 轴 上 的 每 个 小 区 间 对 应 一 个 组 的 
组 距 , 作 为 小 矩形 的 底 边 ; 纵 轴 表 示 频 率 与 组 距 的 比值 ,并 用 它 作为 小 矩形 的 高 ,以 这 种 小 矩 
形 构成 的 一 组 图 称 为 频率 直方 图 。 

例 2.17 频率 直方 图 。 

表 2-5 为 某 班级 学 生 的 数学 成 绩 表 。 图 2-5 为 表 2-5 中 学 生 数 学 成 绩 的 频率 直方 图 。 


表 2-5 一 个 班级 学 生 的 数学 成 绩 数据 集 





学 号 成 绩 
701 60 
702 71 
703 56 
704 99 
705 66 
706 90 
707 100 
708 66 
709 77 
710 60 
711 88 
712 79 
713 83 
714 55 








N 








alil: 


m0-59  m60-69 70-79 80-89 — 90-100 
图 2-5 学 生成 绩 数据 频率 直方 图 





4. 散 点 图 


散 点 图 (Scatter Diagram) 是 相关 分 析 过 程 中 常用 的 一 种 直观 分 析 方 法 ,人 们 将 样本 数 
据点 绘制 在 二 维 平面 或 三 维 空间 上 ,然后 根据 数据 点 的 分 布 特征 ,直观 地 研究 变量 之 间 的 统 
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计 关 系 和 强 弱 程度 。 

图 2-6 所 示 的 散 点 图 表示 变量 之 间 的 相关 程度 。 就 两 个 变量 而 言 , 如 果 变 量 之 间 的 关 
系 近似 地 表现 为 一 条 直线 , 则 称 为 线性 相关 ,如 图 2-6(a) 所 示 ; 如 果 变 量 之 间 的 关系 近似 地 
表现 为 一 条 曲线 , 则 称 为 非 线 性 相关 或 曲线 相关 ,如 图 2-6(b) 所 示 ; 如 果 两 个 变量 的 观测 点 
很 分 散 ,无 任何 规律 , 则 表示 变量 之 间 没 有 相关 关系 ,如 图 2-6(c) 所 示 。 








(a) 线性 相关 (b) 非 线性 相关 (c) 散布 
图 2-6 散 点 图 中 属性 之 间 的 相关 性 

















$12.18. WAR. 
表 2-6 为 物流 收 货 天 数 和 客户 满意 度 相关 数据 调查 表 。 图 2-7 为 表 2-6 中 物流 收 货 天 
数 和 客户 满意 度 相 关 数 据 的 散 点 图 。 


表 2-6 物流 收 货 天 数 和 客户 满意 度 相关 数据 





物流 收 货 天 数 (天 ) 客户 满意 度 物流 收 货 天 数 (天 ) 客户 满意 度 
6 4.5 3 4 
12 Š 8 2.5 
8 3 1 3 
6 5 2 5 











5 ° ° 
4 e— [I 
3 e se ° WEE 
«e lo | e 线性 ( 满 意 度 ) 
2 $< 
A 
1 
0 
5 10 15 20 


2-7 物流 收 货 天 数 和 客户 满意 度 散 点 图 


2.3 数据 的 相似 性 和 相 异 性 度量 


数据 的 相似 性 和 相 异 性 是 两 个 非常 重要 的 概念 ,在 许多 数据 挖掘 技术 中 都 会 使 用 ,如 肾 
类 、 最 近邻 分 类 和 异常 检测 等 。 在 许多 情况 下 ,一 旦 计算 出 数据 的 相似 性 或 相 异 性 ,就 不 再 
需要 原始 数据 了 。 这 种 方法 可 以 看 作为 先 将 数据 变换 到 相似 性 ( 相 异 性 ) 空 间 , 然 后 青 进行 
分 析 。 


2.3.1 数据 矩阵 与 相 异 性 矩阵 


数据 矩阵 (Data Matrix) 又 称 对 象 -属性 结构 ,这 种 数据 结构 用 关系 表 的 形式 或 m Xn 
(m AIR Xn AIR EO XB P f C m 个 数据 对 象 ,数据 矩阵 如 式 (2-6) 所 示 。 


ui. e ps stes ud 
Ga ott dy Hox (2-6) 
"p 


式 (2-6) 中 ,每 一 行 对 应 一 个 对 象 。 在 记号 中 ,使 用 三 作为 遍 取 个 属性 的 下 标 。 
数据 矩阵 由 两 种 实体 或 者 “事物 ”组 成 ,即行 代表 对 象 , 列 代表 属性 。 因 此 ,数据 矩阵 经 
常 被 称 为 二 模 (Two-Mode) 和 矩阵 。 
相 异 性 矩阵 (Dissimilarity Matrix) 又 称 对 象 -对 象 结构 , 它 存 放 个 对 象 两 两 之 间 的 邻 
近 度 (Proximity) ,通常 用 一 个 nXn 和 矩阵 表示 , 相 异 性 矩阵 如 式 (2-7) 所 示 。 
0 
d(2,1) 0 
d(3,1) d(3,2) 0 (2-7) 


d(n,1) d(n,2) … … 0 
其 中 ,d(i, 丫 是 对 象 i 和 j 之 间 相 异性 的 量化 表示 ,通常 为 非 负 值 。 两 个 对 象 越 相 似 或 
越 “ 接 近 ”, 其 值 越 接近 0; 反 之 ,其 值 越 大 ,并 且 满 足 d(i, 站 =d(j ,i 让,d(i,i) 二 0。 
相 异 性 矩阵 只 包含 一 类 实体 ,因此 被 称 为 一 模 (One-Mode) 和 矩阵 。 
许多 聚 类 和 最 邻近 算法 都 在 相 异 性 矩阵 的 基础 上 进行 的 。 因 此 ,在 使 用 这 些 算法 之 前 
要 先 把 数据 矩阵 转换 成 相 异 性 矩阵 。 


2.3.2 标 称 属性 的 邻近 性 度量 


通常 ,邻近 性 度量 (特别 是 相似 度 ) 被 定义 为 或 变换 到 区 间 [0,1] 中 的 值 。 这 样 做 的 目的 
是 由 邻近 性 度量 的 值 表 明 两 个 对 象 之 间 的 相似 (或 相 异 ) 程 度 。 这 种 变换 通常 是 比较 直 
观 的 

















两 个 对 象 i 和 j 之 间 的 相 异 性 可 以 根据 不 匹配 率 计算 ,如 式 (2-8) 所 示 。 


dN mac (2-8) 
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其 中 ,m 是 匹配 的 数目 ( 即 对 象 i 和 j 状态 相同 的 属性 数 ) ,而 p 是 对 象 的 属性 总 数 。 
例 2.19 标 称 属性 之 间 的 相 异 性 。 
根据 表 2-7 中 的 数据 ,计算 相 异 性 矩阵 。 

R27 标 称 属性 样本 数据 表 


对 象 标 识 符 Test( 标 称 的 ) 


1 A 





2 B 
3 C 
4 A 








式 (2-7) 得 到 相 异 性 矩阵 
0 
d(2,1) 0 
d(3,1) d(3,2) 0 
d(4,1) d(4,2) d(4.3) 0 











则 
= = 
d. -—1—5-1 
=1-2 = 
d. =1—> =1 
= = 9: = 
4G,2-—1—5-1 
1 
d4.D-1-4-0 
= usos 
d(4,2) =1-7 =! 
P E c9 
d4.3)=1-7 =! 
经 计算 得 
0 
1 0 
1 d. 
0110 
两 个 对 象 i 和 j 之 间 的 相似 性 计算 如 式 (2-9) 所 示 。 
sim (i,j)= 1—d(i,j)= x (2-9) 


2.3.3 二 元 属性 的 邻近 性 度量 


二 元 属性 只 有 两 种 状态 ,通常 表示 为 0 或 1.0 表示 属性 不 出 现 ,1 表示 属性 出 现 。 二 元 属 
性 又 称 布尔 属性 ,用 false 和 true 表示 。 如 描述 一 位 男性 是 否 喝 酒 ,1 表示 喝酒 ,0 表示 不 喝酒 。 
ER 2-8 中 ,m 是 对 象 i 和 j 都 取 1 的 属性 数 ,n 是 在 对 象 i 中 取 1、 在 对 象 j 中 取 0 的 


属性 数 ,p 是 在 对 象 i 中 取 0、 在 对 象 j 中 取 1 的 属性 数 .而 g 是 对 象 i 和 7 都 取 0 的 属性 数 。 
属性 的 总 数 是 sum, HP sum mn pq. 














表 2-8 二 元 属性 的 列 联 表 
患 肺癌 (j) 
吸烟 (让 
是 (1) 否 (0) 合计 
是 (1) m n m+n 
fO b q pta 
4d map n+q sum 


如 果 对 象 i 和 j 都 用 对 称 的 二 元 属性 刻画 











cd(J) 





p 
m nd 


t+ ga sum 


这 就 是 对 象 i 和 j 之 间 的 对 称 的 二 元 相 异 性 。 
给 定 两 个 非 对 称 的 二 元 属性 ,假设 表 2-8 中 两 个 都 取 值 1 的 情况 被 认为 比 两 个 都 取 值 
0 的 情况 更 有 意义 。 此 时 ,g 是 不 重要 的 ,因此 在 计算 时 被 忽略 ,如 式 (2-11) 所 示 。 


bn 


4(53)— m+n+ p 
这 就 是 对 象 i 和 j 之 间 的 非 对 称 的 二 元 相 异 性 。 
与 之 对 应 的 非 对 称 的 二 元 相似 性 为 











sim(i.j)—1—dG.j) 


m 
m+n+p 


式 (2-12) 中 的 simi jKH Jaccard 系数 。 


例 2.20 


二 元 属性 之 间 的 相 异 性 。 





Wi Rj 的 相 异 性 计算 如 式 (2-10) 所 示 。 
+n bn 


(2-10) 


(2-1D 


(2-12) 


X 2-9 是 居民 家 庭 情 况 调查 表 , 包 含 属 性 name (#E 4) , marital status Cl Ab R25, 


house( 是 否 有 房 ) .car( 是 否 有 车 ) 。 
表 2-9 居民 家 庭 情况 调查 表 





name marital status house car 
Harry Y N Y 
Marry N Y Y 
Angel Y Y N 


K 2-9 中 , 值 Y(yes) 被 设置 为 1, 值 NOno) 被 设置 为 0。 由 表 2-9 中 的 数据 可 以 看 出 ,对 
象 间 的 二 元 属性 是 对 称 的 。 因 此 ,根据 式 (2-10) ,三 名 对 象 两 两 之 间 的 相 异 性 分 别 为 


2.3.4 


d(Harry, Marry)= TIT 


d (Marry. Angel) 


数值 属性 的 相 异 性 





11-1 
= 0.67 
1 


d(Harry, Angel) = — = 0.67 





-1+1 _ 
= 














数值 属性 的 相 异 性 主要 包括 欧 几 里 得 距离 .曼哈顿 距离 .闵可夫 斯 基 距 离 和 切 比 雪夫 


2Z 


28= 


3 36 2-3 5 3 1542 48 


距离 。 
1. 欧 几 里 得 距离 


欧 几 里 得 距离 (Euclidean Metric) 又 称 直 线 距 离 或 “乌鸦 飞行 "距离 。 i — 
(xa sa tt an ) HE = (na xg ette, ) 是 两 个 被 p 个 数值 属性 描述 的 对 象 。 对 象 i HI; 
之 间 的 欧 几 里 得 距离 为 


d(isj)= V(xza—za) + (xa — xg): tn + (zo r) (2-13) 


2. 曼哈顿 距离 





曼哈顿 距离 (Manhattan Distance) 又 称 城市 块 距离 ,之 所 以 如 此 命名 ,是 因为 它 可 以 表 
示 城 市 两 点 之 间 的 街区 距离 (如 向 南 2 个 街区 , 横 过 3 个 街区 ,共计 5 个 街区 )。 i= 
(Xa xg stt ag ) HE = (xa sax yzp) 是 两 个 被 娟 个 数值 属性 描述 的 对 象 。 对 象 HL; 
之 间 的 曼哈顿 距离 为 

d(i;j)— |xa — za |+ |xa —zə |+ + | xu — xj | (2-14) 

欧 几 里 得 距离 和 曼哈顿 距离 都 满足 如 下 数学 性 质 。 

(D 非 负 性 : di 过 0, 距离 是 一 个 非 负 的 数值 。 

© 同一 性 : d(i,i) 二 0, 对 象 到 自身 的 距离 为 0。 

O 三 角 不 等 式 : 4 (i,j) 生 d (i.k) 十 d(k, 门 ,从 对 象 i 到 对 象 j 的 直接 距离 不 会 大 于 途 
经 任何 其 他 对 象 & 的 距离 。 

满足 这 些 条 件 的 测度 称 为 度量 (Metric)。 


3. 闵可夫 斯 基 距 离 


闵可夫 斯 基 距 离 (Minkowski Distance) 是 衡量 数值 点 之 间距 离 的 一 种 非常 常见 的 方 
法 ,i 二 = (za sco yz) 和 了 一 (zyza "zi U ) 是 两 个 被 bp 个 数值 属性 描述 的 对 象 。 对 象 i 
和 j 之 间 的 闵可夫 斯 基 距 离 如 式 (2-15) 所 示 : 
d(isj)= V[za — an |" F [za — zal + + [za — zp [^ (2-15) 
其 中 ,h ERAS "4 h51 BE dG. D AER EIER: 4 h=2 时 ,表示 欧 几 里 得 距离 。 





4. 切 比 雪夫 距离 


切 比 雪夫 距离 (又 称 上 确 界 距离 ,Chebyshev Distance) ,定义 两 个 对 象 之 间 的 距离 为 其 
各 坐标 数值 差 的 最 大 值 。 其 定义 如 式 (2-16) 所 示 : 


p 1 
d(i.j)— lim ( 27 |z —z; |° )* = max | zy — zy | (2-16) 
hm II —-p 
| 2.21  EKJL B (EB Bj SAWER VD n] c Hr SB r K UJ CB S 。 


给 定 两 个 对 象 分 别 用 元 组 (2,8,7,4) 和 (1,5,3,0) 描 述 , 计 算 这 两 个 对 象 之 间 的 欧 几 里 
得 距离 .曼哈顿 距离 .闵可夫 斯 基 距 离 (A 一 4) 以 及 切 比 雪夫 距离 。 


欧 几 里 得 距离 为 d (i,j) 2 42 一 6. 48, 
曼哈顿 距离 为 4(i,j) 二 |2 一 1 | 十 |8 一 5| 十 |7 一 3| 十 |4 一 01|=1 十 3 十 4 十 4 二 12。 


























闵可夫 斯 基 距 离 为 4 G.j)= VT2 一 1T* 干 [8 二 5 下" 干 17 二 3 和 于 T40f = /594 和 
4.94, 
切 比 雪夫 距离 为 4(i,j)= 二 max{ |2 一 1| ,| 8 一 5| ,|7 一 3| ,|4 一 0| 3 9 max(1.3,4.4) —4. 


2.3.5 序数 属性 的 邻近 性 度量 


序数 属性 可 以 通过 把 数值 属性 的 值 域 划分 成 有 限 个 类 别 后 对 数值 属性 离散 化 得 到 。 这 
些 类 别 组 织 成 排 位 , 即 数 值 属 性 的 值 域 可 以 映射 到 具有 Mj 个 状态 的 序数 属性 f。 其 中 , 序 
数 属性 可 能 的 状态 数 为 M。 这 些 有 序 的 状态 定义 了 一 个 排 位 1,… ,Mr 。 

假设 f 是 用 于 描述 个 对 象 的 一 组 序数 属性 之 一 ,关于 三 的 相 异 性 计算 步骤 如 下 。 

中 第 i 个 对 象 的 f 值 为 x .属性 f 有 Mj 个 有 序 的 状态 ,表示 排 位 1,… ,Mj。 用 对 应 
的 排 位 ry € {1,… Mp) BAR zx。 

© 由 于 每 个 序数 属性 都 可 以 有 不 同 的 状态 数 , 所 以 通常 需要 将 每 个 属性 的 值 域 映射 到 
[0.0,1.0] 上 ,以 便 每 个 属性 都 有 相同 的 权重 。 通 过 用 zj 代替 第 i 个 对 象 的 ry 实现 数据 规 
格 化 ,其 中 




















ri 一 1 
M,—i 
C) 相 异 性 可 以 用 任意 一 种 数值 属性 的 距离 度量 计算 ,使 用 z 作为 第 ; 个 对 象 的 了 值 。 
例 2.22 序数 属性 之 间 的 相 异 性 。 
根据 表 2-10 中 的 数据 ,计算 序数 属性 之 间 的 相 异 性 。 


表 2-10 序数 属性 样本 数据 表 





(2-17) 





对 象 标 识 符 Test( 序 数 的 ) 
1 excellent 
2 good 
3 ordinary 
4 excellent 





Test 有 三 个 状态 : ordinary、good 和 excellent, IJ Mj 二 3。 
CD 把 Test 的 每 个 值 蔡 换 为 它 的 排 位 , 则 4 个 对 象 的 排 位 值 分 别 为 3、2、1、3。 
© 通过 将 排 位 1 映射 为 0.0、 排 位 2 映射 为 0.5、 排 位 3 映射 为 1. 0 实现 对 排 位 的 规 
格 化 。 
© 使 用 欧 几 里 得 距离 得 到 相 异 性 矩阵 : 
0 
0.5 0 
1.0 (0:5 0 
0 0:5. 1.0. 0 
因此 ,对象 1 与 对 象 3 最 不 相似 ,对 象 3 与 对 象 4 也 不 相似 ( 即 (3.1) —1.0.d(4,3) — 
1.0)。 这 符合 其 原始 数值 之 间 的 关系 : 对 象 1 和 对 象 4 都 是 excellent。 对 象 3 是 ordinary， 
在 Test 的 值 域 的 另 一 端 。 
序数 属性 的 相似 性 为 
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sim (i,j)= 1—d(i,j) (2-18) 


2.3.6 余弦 相似 性 


余弦 相似 性 (又 称 余弦 相似 度 ,Cosine Similarity) 是 基于 向 量 的 , 它 利 用 向 量 空间 中 两 
个 向 量 夹 角 的 余弦 值 作为 衡量 两 个 个 体 间 差 异 的 大 小 。 令 向 量 x — Qni easet ,Xp), 向 量 
Y= Gn «yo ett s) ,两 个 向 量 的 余弦 相似 性 定义 为 
Tyi 十 Zzya doc dax, 











xey 
sim G3) TETTT 





as! deas! ma y + ys dm yy 


oo (2-19) 


Hep, |x re] fib x= (zi,zxs，…,z) 的 欧 几 里 得 范 数 ,定义 为 Vz Far 4r. 
EEE, |y EE y= On ,ys，…,y,) 的 欧 几 里 得 范 数 ,定义 为 Vy ys dom y, 。 该 度量 
计算 向 量 x 和 y 之 间 夹 角 的 余弦 。 

余弦 值 为 0 意味 两 个 向 量 呈 90^ 3e ffi CIE 260 ,没有 匹配 。 余 弦 值 越 接近 1, 夹 角 越 小 ,向 
量 之 间 的 匹配 越 大 。 

余弦 相似 性 经 常用 于 计算 文本 相似 度 。 两 个 文本 根据 关键 词 建立 两 个 向 量 , 计 算 这 两 
个 向 量 的 余弦 值 ,就 可 以 知道 这 两 个 文本 在 统计 学 方法 中 的 相似 度 情 况 。 如 果 余 弦 值 为 1， 
则 说 明 两 篇 文档 完全 相同 ;如 果 余 弦 值 为 0, 则 说 明 两 篇 文档 完全 不 同 。 

例 2.23 余弦 相似 度 。 

给 定 两 个 对 象 的 元 组 x — (1.2.5408 y— (2.3.5. D ,计算 两 个 对 象 的 余弦 相似 度 。 


1X2 十 2X3 十 5X5 十 4X1 3 ，， 
REMER E= a aT 254 16% /ti Juxgp CP 
当 属 性 是 二 值 属 性 时 ,余弦 相似 性 函数 可 以 用 共享 特征 或 属性 解释 。 其 中 ,x，y 表示 
x 与 y 所 共有 的 属性 个 数 ,x。x 十 y，y 一 x。y m x sk y 所 具有 的 属性 个 数 。 于 是 ,sim 
(x,y) 是 公共 属性 相对 拥有 的 一 种 度量 。 
此 时 ,余弦 相似 度 为 














sim (x.y)= TITYXUS sss (2-20) 


该 函数 被 称 为 Tanimoto 系数 ,又 称 广义 Jaccard 系数 。 


2.4 习题 


1. 判断 下 列 属性 分 类 是 标 称 的 还 是 比率 的 。 
(a) 用 AM 和 PM 表示 的 时 间 。 

(b) 根据 曝光 表 测 出 的 亮度 2-3. 

(c) 根据 人 的 判断 测 出 的 亮度 。 

(d) 医院 中 的 病人 数 。 


(e) diff ISBN 号 。 

CD. 用 每 立方 厘米 表示 的 物质 密度 。 

2. 给 定 两 个 向 量 对 象 ,分 别 表示 为 p1(22,1,42,10),p2(20,0,36,8)。 

(a) 计算 两 个 对 象 之 间 的 欧 几 里 得 距离 。 

(b) 计算 两 个 对 象 之 间 的 曼哈顿 距离 。 

CO 计算 两 个 对 象 之 间 的 闵可夫 斯 基 距 离 ,其 中 参数 /一 3。 

(d) 计算 两 个 对 象 之 间 的 切 比 雪夫 距离 。 

3. 对 于 向 量 z 和 > ,计算 指定 的 相似 性 或 距离 度量 。 

(a) x 二 (1,1,1,1),y 二 (2,2,2,2) 的 余弦 相似 度 、 欧 几 里 得 距离 。 

(b) x 二 (0,1,0,1),y 二 (1,0,1,0) 的 余弦 相似 度 、 欧 几 里 得 距离 。 

(c) x=(2, 一 1,0,2,0, 一 3),y==( 一 1,1, 一 1,0,0, 一 1) 的 余弦 相似 度 。 

4. 假设 用 于 分 析 的 数据 包含 属性 age, 数 据 元 组 中 age 的 值 如 下 ( 按 递增 序 ): 13,15, 
16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70, 

Ca) 画 一 个 宽度 为 10 的 等 宽 的 直方 图 。 

(b) 画 一 个 区 间 为 10 的 饼 图 。 

5. 根据 第 4 题 的 数据 进行 如 下 计算 。 

(a) 该 组 数据 的 平均 值 是 多 少 ? 

(b) 该 组 数据 的 中 位 数 是 多 少 ? 

(c) 该 组 数据 的 众 数 是 多 少 ? 

(d) 该 组 数据 的 中 列 数 是 多 少 ? 

6. 根据 某 工厂 50 名 工人 日 加 工 零件 个 数 的 数据 ( 表 2-11) ,计算 近似 中 位 数 。 


表 2-11 第 6 题 数据 














零件 个 数 频率 
105 一 109 3 
110—114 5 
115—119 8 
120—124 14 
125—129 10 
130—134 6 


135—139 4 
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第 3 wë 
数据 预 处 理 


数据 预 处 理 是 数据 挖掘 中 的 重要 一 环 ,而 且 必 不 可 少 。 要 想 更 有 效 地 挖掘 出 知识 ,就 必 
须 为 它 提供 干净 、 准 确 、 简 洁 的 数据 。 然 而 实际 应 用 系统 中 收集 到 的 原始 数据 往往 是 
“ 脏 ” 的 。 

现实 世界 中 的 数据 大 体 上 都 是 不 完整 .不一致 的 脏 数据 ,无 法 直接 进行 数据 挖掘 ,或 挖 
掘 结果 无 法 令 人 满意 。 为 了 提高 数据 挖掘 的 质量 ,就 需要 使 用 数据 预 处 理 技术 。 数 据 预 处 
理 有 多 种 方法 : 数据 清理 .数据 集成 ,数据 变换 .数据 归 约 等 。 这 些 数据 预 处 理 技术 在 数据 
挖掘 之 前 使 用 可 以 大 大 提高 数据 挖掘 模式 的 质量 ,降低 实际 挖掘 所 需要 的 时 间 。 

数据 清理 (Data Cleaning) 过 程 通过 填写 缺失 的 值 光 滑 噪声 数据 识别 或 删除 离 群 点 以 
及 解决 不 一 致 性 等 手段 “清理 "数据 ,主要 达到 如 下 目标 : 格式 标准 化 .异常 数据 清除 、 错 误 
纠正 等 。 

数据 集成 (Data Integration) 是 将 多 个 数据 源 中 的 数据 结合 起 来 并 统一 存储 ,建立 数据 
仓库 的 过 程 。 

数据 变换 (Data Transformation) 是 通过 平滑 聚集 ,数据 概 化 .规范 化 等 方式 将 数据 转换 
成 适用 于 数据 挖掘 的 形式 。 

数据 挖掘 时 往往 数据 量 非常 大 ,进行 挖掘 分 析 需 要 很 长 的 时 间 , 数 据 归 约 (Data 
Reduction) 技 术 可 以 得 到 数据 集 的 归 约 表示 , 它 比 原 数 据 集 小 很 多 ,但 基本 可 以 保持 原 数 据 
的 完整 性 ,对 归 约 后 的 数据 集 进行 挖掘 的 结果 与 对 原 数据 集 进行 挖掘 的 结果 相同 或 几乎 
相同 。 


3.1 数据 预 处 理 及 任务 

本 节 主 要 介绍 数据 预 处 理 的 问题 : 数据 预 处 理 的 必要 性 ,数据 质量 的 性 质 以 及 数据 预 
处 理 的 主要 任务 。 
3.1.1 数据 预 处 理 的 必要 性 

1. 原始 数据 存在 的 问题 


现实 世界 中 收集 到 的 原始 数据 大 多 都 是 “ 脏 ” 数 据 ,这 些 数据 通常 都 会 存在 以 下 几 个 方 
面 的 问题 。 

CD 数据 的 不 一 致 

原始 数据 是 从 各 种 实际 应 用 系统 (多 种 数据 库 、 多 种 文件 系统 ) 中 获取 的 。 由 于 各 应 用 
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系统 的 数据 缺乏 统一 的 标准 和 定义 ,数据 结构 也 有 较 大 的 差异 ,因此 各 系统 间 的 数据 存在 较 
大 的 不 一 致 性 ,共享 问题 严重 ,往往 不 能 直接 拿 来 使 用 。 例 如 , 某 数据 库 中 两 个 不 同 的 表 可 
能 都 有 重量 这 个 属性 ,但 是 一 个 以 kg 为 单位 , 另 一 个 是 以 g 为 单位 ,这 样 的 数据 就 会 有 较 大 
的 杂乱 性 。 

(2) 噪声 数据 

收集 数据 的 时 候 难 以 得 到 精确 的 数据 ,如 收集 数据 的 设备 可 能 出 现 故障 、 数 据 输入 时 可 
能 出 现 错误 .数据 传输 过 程 中 可 能 出 现 错误 ,存储 介质 可 能 出 现 损 坏 等 ,这 些 情况 都 可 能 导 
致 噪声 数据 的 出 现 。 

(3) 缺失 值 

由 于 实际 系统 设计 时 可 能 存在 的 缺陷 以 及 使 用 过 程 中 人 为 因素 所 造成 的 影响 ,数据 记 
录 中 可 能 会 出 现 有 些 数据 属性 的 值 丢失 或 不 确定 的 情况 ,还 可 能 缺少 必需 的 数据 而 造成 数 
据 不 完整 。 例 如 ,收集 数据 的 设备 出 现 了 故障 ,导致 一 部 分 数据 的 缺失 ,这 就 会 使 数据 不 完 
整 。 另 外 ,实际 使 用 的 系统 中 可 能 存在 大 量 的 模糊 信息 ,有 些 数据 甚至 还 具有 一 定 的 随机 
性 质 。 

例 3.1 收集 的 数据 可 能 出 现 的 情况 。 

假设 某 公司 的 领导 想 要 分 析 某 个 月 的 销售 数据 。 首 先 需要 选择 分 析 需 要 的 属性 ,例如 
商品 价格 .商品 ID 等 。 如 果 人 工 录 入 时 输入 错误 ,就 会 降低 数据 的 准确 性 。 再 如 ,公司 领导 
希望 知道 每 种 销售 商品 是 否 做 过 降价 销售 广告 ,但 是 这 些 信息 可 能 是 缺失 的 ,就 无 法 保证 数 
据 的 完整 性 ;存放 用 户 具体 信息 的 表 中 某 用 户 的 手机 号 为 13110345615, 但 是 购买 记录 表 中 
的 手机 号 被 存 为 13110345610 ,就 无 法 保证 数据 的 一 致 性 。 


2. 数据 质量 要 求 


现实 世界 中 的 数据 大 多 都 存在 数据 不 一 致 .噪声 数据 以 及 缺失 值 等 问题 ,但 是 数据 挖掘 
需要 的 都 必须 是 高 质量 的 数据 , 即 数据 挖掘 所 处 理 的 数据 必须 具有 准确 性 (Correctness)、 
完整 性 (Completeness) 一致 性 (Consistency) 等 性 质 。 另 外 ,时 效 性 (Timeliness)、 可 信人 性 
(Believability) 和 可 解释 性 (Interpretability) 也 会 影响 数据 的 质量 。 

CD 准确 性 

准确 性 是 指数 据 记 录 的 信息 是 否 存在 异常 或 错误 。 

(2) 完整 性 

完整 性 是 指数 据 信息 是 否 存在 缺失 的 情况 。 数 据 缺 失 的 情况 可 能 是 整个 数据 记录 缺 
Ak ,也 可 能 是 数据 中 某 个 字段 信息 的 记录 缺失 。 

(3) 一 臻 性 

一 致 性 是 指数 据 是 否 遵循 了 统一 的 规范 ,数据 集合 是 否 保持 了 统一 的 格式 。 数 据 质量 
的 一 致 性 主要 体现 在 数据 记录 的 规范 和 数据 是 否 符合 逻辑 。 

(4) 时 效 性 

时 效 性 是 指 某 些 数据 是 否 能 及 时 更 新 ,更 新 时 间 越 短 , 则 时 效 性 越 强 。 

(5) 可 信 性 

可 信和 性 是 指 用 户 信赖 的 数据 的 数量 ,用 户 信 赖 的 数据 越 多 , 则 可 信 性 越 好 。 
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(6) 可 解释 性 

可 解释 性 是 指数 据 自身 是 否 易于 人 们 理解 ,数据 自身 越 容易 被 人 们 理解 , 则 可 解释 性 
越 高 。 
3.1.2 数据 预 处 理 的 主要 任务 

数据 预 处 理 主要 包括 数据 清理 .数据 集成 数据 归 约 和 数据 转换 ,如 图 3-1 所 示 。 
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属性 属性 
数据 归 约 Al A2 |: All5 AL >= A9% 
TI TI | 
T2 _ E | 
e T769 | 
事务 T1000 
数据 变换 —2, 25, 300, 58, 12 —— -0.02, 0.25, 3, 0.58, 0.12 
图 3-1 数据 预 处 理 的 任务 
1. 数据 清理 


数据 清理 通过 填写 缺失 的 值 光滑 噪声 数据 、 识 别 或 删除 离 群 点 等 方法 去 除 源 数 据 中 的 
噪声 数据 和 无 关 数据 ,并 且 处 理 遗 漏 的 数据 和 清洗 * 脏 ?数据 ,考虑 时 间 顺 序 和 数据 变化 等 。 
数据 清理 主要 是 针对 缺失 值 的 数据 处 理 , 并 完成 数据 类 型 的 转换 。 


2. 数据 集成 


当 需 要 分 析 挖 掘 的 数据 来 自 多 个 数据 源 的 时 候 , 就 需要 集成 多 个 数据 库 、 数 据 立 方 体 或 
文件 , 即 数据 集成 。 来 自 多 个 不 同 数据 源 的 数据 ,可 能 存在 数据 的 不 一 致 性 和 元 余 问 题 : 代 
表 同 一 概念 的 属性 的 属性 名 在 不 同 数据 库 中 可 能 不 同 ,例如 在 某 个 数据 库 中 的 商品 名 称 的 
属性 名 为 product_name, 它 在 另 一 个 数据 库 中 却 是 brand_name。 数 据 的 不 一 致 还 可 能 出 
现在 属性 值 中 ,例如 同一 个 商品 在 第 一 个 数据 库 中 的 商品 名 取 值 为 sofa, 在 男 一 个 数据 库 
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中 值 为 couch ,在 第 三 个 数据 库 可 能 还 会 有 其 他 的 值 。 除 此 之 外 ,还 有 一 种 情况 是 某 些 属性 
是 由 其 他 属性 导出 的 。 





3. 数据 归 约 


数据 归 约 就 是 指 对 数据 集 进行 简化 表示 。 大 量 的 元 余数 据 会 降低 知识 发 现 过 程 的 性 能 
或 使 之 陷入 混乱 。 因 此 ,在 数据 预 处 理 中 不 仅 要 进行 数据 清理 ,还 必须 采取 措施 避免 数据 集 
成 后 数据 的 元 余 。 这 样 既 能 降低 数据 集 的 规模 ,又 可 以 不 损害 数据 挖掘 的 结果 。 数 据 归 约 
后 比 原来 小 得 多 ,但 是 可 以 得 到 几乎 相同 的 分 析 结 果 。 


4. 数据 变换 


数据 变换 是 将 数据 从 一 种 表示 形式 变 为 另 一 种 表现 形式 的 过 程 , 它 包括 了 数据 的 规范 
化 ,数据 离散 化 和 概念 分 层 , 可 以 使 数据 的 挖掘 在 多 个 抽象 层 上 进行 。 

现实 世界 中 的 数据 需要 使 用 数据 预 处 理 提高 数据 的 质量 ,这 样 可 以 提高 挖掘 过 程 的 准 
确 率 和 效率 。 因 此 ,数据 预 处 理 是 数据 挖掘 的 重要 步骤 。 


3.2 数据 清理 


现实 世界 中 的 大 多 数 数据 是 不 完整 有 噪声 和 不 一 致 的 。 那 么 就 需要 对 * 脏 ?的 数据 进 
行 数 据 清理 。 数 据 清理 就 是 对 数据 进行 重新 审查 和 校 验 的 过 程 , 其 目的 在 于 纠正 存在 的 错 
误 ,并 提供 数据 一 致 性 。 


3.2.1 缺失 值 、. 噪 声 和 不 一 致 数据 的 处 理 
1. 缺失 值 的 处 理 


缺失 值 是 指 在 现 有 的 数据 集中 缺少 某 些 信息 ,也 就 是 说 某 个 或 某 些 属性 的 值 是 不 完全 
的 。 处 理 缺 失 值 一 般 使 用 以 下 几 种 方式 。 

(1) 忽略 元 组 

在 数据 中 缺少 类 标号 的 情况 下 经 常 采 用 忽略 元 组 这 个 方法 (假定 挖掘 任务 涉及 分 类 )。 
但 是 ,除非 元 组 有 多 个 属性 缺失 值 ,否则 该 方法 就 没有 什么 效果 。 当 每 个 属性 缺失 值 的 百 分 
比 变化 很 大 时 , 它 的 性 能 会 特别 差 。 

(2) 忽略 属性 列 

如 果 某 个 属性 的 缺失 值 太 多 ,假设 超过 了 80% ,那么 在 整个 数据 集中 就 可 以 忽略 该 
属性 。 

(3) 人 工 填写 缺失 值 

一 般 来 说 ,人 工 填写 缺失 值 会 耗费 过 多 的 人 力 和 物力 ,而 且 如 果 数 据 集 缺 失 了 很 多 值 或 
者 数据 集 很 大 ,该 方法 不 方便 实现 。 

(4) 使 用 属性 的 中 心 度量 值 填 充 缺失 值 

如 果 数 据 的 分 布 是 正常 的 ,就 可 以 使 用 均值 填充 缺失 值 。 例 如 ,一 条 属于 a 类 的 记录 在 
A 属性 上 存在 缺失 值 ,那么 可 以 用 该 属性 上 属于 a 类 全 部 记录 的 平均 值 代替 该 缺失 值 。 
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如 果 数 据 的 分 布 是 倾斜 的 , 则 可 以 使 用 中 位 数 填充 缺失 值 。 例 如 ,对 于 顾客 一 次 来 超市 
时 所 消费 的 金额 这 一 字段 ,就 可 以 按照 顾客 的 年 龄 这 一 字段 进行 分 类 ,然后 使 用 处 于 相同 年 
龄 段 的 顾客 的 平均 消费 金额 填充 缺失 值 。 

O 使 用 一 个 全 局 常量 填充 空缺 值 

使 用 一 个 全 局 常量 填充 空缺 值 就 是 对 一 个 所 有 属性 的 所 有 缺失 值 都 使 用 一 个 固定 的 值 
填补 (如 Not sure zo) 。 此 方法 最 大 的 优点 就 是 简单 .省事 ,但 是 也 可 能 产生 一 个 问题 , 那 
就 是 挖掘 的 程序 可 能 会 误 以 为 这 是 一 个 特殊 的 概念 。 

(6) 使 用 可 能 的 特征 值 蔡 换 缺 失 值 

以 上 这 些 简 单方 法 的 蔡 代 值 都 不 准确 ,数据 都 有 可 能 产生 误差 。 为 了 比较 准确 地 预测 
缺失 值 ,数据 挖掘 者 可 以 生成 一 个 预测 模型 预测 每 个 丢失 值 。 例 如 ,如 果 每 个 样本 给 定 3 个 
特征 值 A、B、C, 那 么 可 以 将 这 3 个 值 作为 一 个 训练 集 的 样本 ,生成 一 个 特征 之 间 的 关系 模 
型 。 一 旦 有 了 训练 好 的 模型 ,就 可 以 提出 一 个 包含 丢失 值 的 新 样本 ,并 产生 预测 值 。 也 就 是 
说 ,如 果 特 征 A 和 B 的 值 已 经 给 出 ,模型 会 生成 特征 C 的 值 。 如 果 丢 失 值 与 其 他 已 知 特征 
高 度 相关 ,这 样 的 处 理 就 可 以 为 特征 生成 最 合适 的 值 。 

当然 ,如 果 缺 失 值 总 是 能 够 被 准确 地 预测 ,就 意味 着 这 个 特征 在 数据 集中 是 元 余 的 ,在 
进一步 的 数据 挖掘 中 是 不 必要 的 。 在 现实 世界 的 应 用 中 ,缺失 值 的 特征 和 其 他 特征 之 间 的 
关联 应 该 是 不 完全 的 。 所 以 ,不 是 所 有 的 自动 方法 都 能 填充 出 正确 的 缺失 值 。 但 此 方法 在 
数据 挖掘 中 是 很 受 欢 迎 的 。 因 为 它 可 以 最 大 限度 地 使 用 当前 数据 的 信息 预测 缺失 值 。 


2. 噪声 的 处 理 


噪声 (Noise) 是 指 被 测量 的 变量 产生 的 随机 错误 或 误差 。 

噪声 是 随 着 随机 误差 出 现 的 ,包含 错误 点 值 或 孤立 点 值 。 噪 声 数据 产生 的 主要 原因 是 
数据 输入 数据 库 产生 的 丝 漏 及 设备 可 能 的 故障 。 噪 音 检 测 可 以 降低 根据 大 量 数据 做 出 错误 
决策 的 风险 ,并 有 助 于 识别 ,防止 \ 去 除 恶意 或 错误 行为 的 影响 。 

发 现 噪声 数据 并 且 从 数据 集中 去 除 它 们 的 过 程 可 以 描述 为 从 nn 个 样本 中 选 & 个 与 其 余 
数据 显著 不 同 或 例外 的 样本 (k<n)。 定 义 噪声 数据 的 问题 是 非 同 寻常 的 ,在 多 维 样本 中 尤 
其 如 此 。 常 用 的 噪音 检测 的 技术 如 下 。 

(1) 基于 统计 的 技术 

基于 统计 的 噪声 探测 方法 可 以 分 为 一 元 方法 和 多 元 方法 ,目前 多 数 研究 团体 通常 采用 
多 元 方法 ,但 是 这 种 方法 不 适合 高 维 数据 集 和 数据 分 布 未 知 的 任意 数据 集 。 

多 元 噪声 探测 的 统计 方法 常常 能 指出 远离 数据 分 布 中 心 的 样本 。 这 个 任务 可 以 使 用 几 
个 距离 度量 值 完成 。 马 氏 (Mahalanobis) 距 离 值 包 括 内 部 属性 之 间 的 依赖 关系 ,这 样 系统 就 
可 以 比较 属性 组 合 。 这 个 方法 依赖 多 元 分 布 的 估计 参数 ,给 定 p 维 数据 集中 的 个 观察 值 
Zi( 其 中 np) ,用 工 表 示 样 本 平均 向 量 ,V,。 表 示 样 本 协 方差 矩阵 ,其 中 








v, L Yo: Z, (ai — RT (3-1) 
每 个 多 元 数据 点 ii 一 1,2,…,2) 的 马 氏 距离 用 M; 表 示 为 


M, = PA - zv. zo] (3-2) 
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于 是 , 马 氏 距离 很 大 的 n 维 样本 就 被 视 为 噪声 数据 。 

(2) 基于 距离 的 技术 

基于 距离 的 噪声 检测 方法 与 基于 统计 的 方法 最 大 的 不 同 就 是 这 种 方法 可 以 用 于 多 维 样 
本 ,而 大 多 数 的 统计 方法 仅 分 析 一 维 样本 ,即使 分 析 多 维 样本 ,也 是 单独 分 析 每 一 维 。 这 种 
方法 的 基本 计算 复杂 性 在 于 估计 n 维 数据 集中 所 有 样本 间 的 测量 距离 。 如 果 样 本 S 中 至 
少 有 一 部 分 数量 为 的 样本 到 ;的 距离 比 d 大 ,那么 样本 s; 就 是 数据 集 S 中 的 一 个 噪声 数 
据 。 也 就 是 说 ,这 个 方法 的 检测 标准 基于 参数 p Tl d ,这 两 个 参数 可 以 根据 数据 的 相关 知识 
提前 给 出 ,或 者 在 迭代 过 程 中 改变 ,以 选择 最 有 代表 性 的 噪声 数据 。 

例 3.2 基于 距离 的 噪声 检测 方法 。 

给 定 一 组 三 维 样本 S, S= {S S, Ss Si ,Ss ,Ss}={(1,2,0),(3,1,4),(2,1,5),(0,1,6), 
(2,4,3) (4,4,2) ) GK ERE BS LH. d 大 于 等 于 4、 非 邻 点 样本 的 阔 值 部 分 p 大 于 等 于 3 时 的 
噪声 数据 。 

首先 , 求 数据 集 的 欧 几 里 得 距离 ,使 用 4 Gi —23)! Fi y) + (zi — 20 , Bl 
表 3-1 所 示 。 











表 3-1 数据 集 S 的 距离 表 





Sı S; S, S, S; Ss 
Sı 4. 583 5.196 6. 164 3.742 4.123 
S, 1.414 3.606 3.317 3. 742 
S, 2.236 3. 606 4. 690 
S, 4. 690 6. 403 
S; 2. 236 





然后 根据 阔 值 距离 4 一 4 计算 出 每 个 样本 参数 p —3 的 值 , 计 算 结果 如 表 3-2 所 示 。 


表 3-2 S 中 每 个 点 的 距离 大 于 d 的 p 点 个 数 


一 





S; 
S; 


b 
Sı 4 
S: 1 
S; 2 
S, 3 
1 
3 





根据 表 3-2 所 示 的 结果 ,可 选择 S, .S, .Se 作为 噪声 数据 (因为 它们 的 p 值 大 于 等 于 3)。 
3. 不 一 致 数据 的 处 理 


数据 的 不 一 致 性 是 指 各 类 数据 的 矛盾 性 和 不 相 容 性 ,其 中 主要 是 由 于 数据 元 余 、 并 发 控 
制 不 当 以 及 各 种 故障 和 错误 造成 的 。 由 于 存在 很 多 破坏 数据 一 致 性 的 因素 ,数据 库 系统 都 
会 有 一 些 相应 的 措施 解决 并 保持 数据 库 的 一 致 性 ,因此 可 以 使 用 数据 库 系统 保持 数据 的 
= 
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但 是 对 于 某 些 事务 中 一 些 数据 记录 的 不 一 致 ,可 以 使 用 其 他 比较 权威 的 材料 改正 这 些 
事务 的 数据 不 一 致 。 另 外 ,数据 输入 时 产生 的 问题 可 以 用 纸 上 的 记录 改正 这 些 数据 的 不 一 
致 。 知 识 工程 工具 也 可 以 用 来 检测 违反 约束 条 件 的 数据 。 


3.2.2 数据 清理 方式 


噪声 和 缺失 值 都 会 产生 * 脏 ”的 数据 ,也 就 是 有 很 多 原因 会 使 数据 产生 错误 ,在 进行 数据 
清理 时 ,就 需要 对 数据 进行 偏差 检测 。 导 致 偏差 的 原因 有 很 多 ,例如 ,人 工 输入 数据 时 有 可 
能 误 输 入 ;数据 库 的 字段 设计 自身 可 能 产生 一 些 问题 ;用 户 填写 信息 时 可 能 没有 填写 真实 信 
息 以 及 数据 退化 等 。 不 一 致 的 数据 表示 和 编码 的 不 一 致使 用 也 可 能 出 现 数据 偏差 ,例如 身 
高 170cm 和 1.70m, 日 期 “2011/12/12” 和 "12/12/2011”。 字 段 过 载 (Field Overloading) 产 
生 的 原因 一 般 是 开发 者 将 新 属性 的 定义 挤 进 已 经 定义 的 属性 的 未 使 用 (位 ) 的 部 分 ,例如 ,使 
用 一 个 属性 未 使 用 的 位 ,该 属性 取 值 已 经 使 用 了 32 位 中 的 31 位 。 

可 以 使 用 唯一 性 原则 .连续 性 原则 和 空 值 原则 观察 数据 ,进行 偏差 检测 。 


1. 唯一 性 原则 

每 个 值 都 是 唯一 的 ,一 个 属性 的 每 一 个 值 都 不 能 和 这 个 属性 的 其 他 值 相同 。 
2. 连续 性 原则 

首先 要 满足 唯一 性 原则 ,然后 每 个 属性 的 最 大 值 和 最 小 值 之 间 没 有 缺失 的 值 。 
3. 空 值 原则 


需要 明确 空白 问号、 特殊 符号 等 指示 空 值 条 件 的 其 他 串 的 使 用 并 且 如 何 处 理 这 样 
的 值 。 

此 外 ,为 了 统一 数据 格式 和 解决 数据 冲突 ,在 数据 清理 时 ,还 可 以 使 用 外 部 源 文 件 更 正 
错误 数据 。 外 部 源 文件 就 是 以 记录 的 形式 表示 信息 的 文件 ,这 些 外 部 源 文 件 可 以 从 一 些 拥 
有 单位 或 个 人 完整 并 真实 的 有 效 信 息 的 行政 部 门 获得 ,如 例 3. 3 所 示 o 

例 3.3 使 用 外 部 源 文件 更 正 错误 数据 。 

在 表 3-3 所 示 的 外 部 源 文件 中 ,ID 是 唯一 的 ,是 关键 字段 。 表 3-4 是 一 条 脏 记录 。 外 部 
源 文件 模式 与 脏 数据 的 模式 一 致 ,根据 外 部 源 文件 的 关键 字段 确定 脏 数据 中 字段 的 格式 。 
清理 过 后 的 结果 如 表 3-5 所 示 ,对 表 中 Name 字段 的 值 重 新 进行 了 调整 。 


表 3-3 外 部 源 文件 实例 





ID Name Address Sex 
20161009211 Zhang San 12 M 
20161009212 Li Si 30 M 


20161009213 Wang Wu 25 F 
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表 3-4 一 条 及 记录 
ID Name Address Sex 





20161009211 Zhang S 12 M 


表 3-5 清理 后 的 记录 














ID Name Address Sex 
20161009211 Zhang San 12 M 
3.3 数据 集成 


数据 集成 主要 是 在 数据 分 析 任务 中 把 不 同 来 源 、 格 式 、 特 点 和 性 质 的 数据 合理 地 集中 并 
合并 起 来 ,从 而 为 数据 挖掘 提供 完整 的 数据 源 (包括 多 个 数据 库 .数据 立 方 体 或 一 般 文件 )， 
然后 存放 在 一 个 一 致 的 数据 存储 中 ,有 助 于 减少 结果 数据 集 的 元 余 和 不 一 致 ,可 以 提高 在 这 
之 后 的 挖掘 过 程 的 准确 性 和 速度 。 

数据 集成 的 过 程 涉及 以 下 两 个 问题 : 


1. 集成 的 过 程 中 涉及 的 实体 识别 问题 


这 个 问题 主要 是 来 自 多 个 信息 源 的 现实 世界 产生 的 “匹配 ”问题 。 例 如 ,一 个 数据 库 中 
的 brand. name 和 另 一 个 数据 库 的 product. name 指 的 是 同一 实体 。 通 常 ,数据库 和 数据 仓 
库 中 的 元 数据 (关于 数据 的 数据 ) 可 以 帮助 避免 模式 集成 中 的 错误 。 


2. 宛 余 问 题 


在 进行 数据 集成 的 过 程 中 很 可 能 会 遇 到 宛 余 。 解 决 元 余 的 方法 主要 有 两 种 ,一 种 是 对 
数值 属性 ,使 用 相关 系数 和 协 方差 ; 另 一 种 是 对 标 称 数据 ,使 用 x*( 卡 方 ) 检 验 。 

(1) 数值 数据 的 相关 系数 (Correlation Coefficient) 

属性 X 和 Y 的 相关 度 使 用 其 相关 系数 rx,y 表 示 。 


Dao J) Cey: —mXY) 
=] =1 


Tx z : (3-3) 
moxoy Mo xOy 











式 (3-3) 中 的 m 代表 元 组 的 个 数 ,zx; 是 元 组 i 在 属性 X 上 的 值 ,y; 是 元 组 i 在 属性 Y 上 


的 值 ,X 表示 X 的 均值 ,Y 表示 Y 的 均值 ,0 表示 X 的 标准 差 ,oy 表 示 Y 的 标准 差 ， 3 (tis 


yi) 表示 每 个 元 组 中 X 的 值 乘 Y 008. H rx h BURR A — 1r í ml. 

如 果 rx y 0, 9I] X 和 YY 是 正 相 关 的 ,也 就 是 说 ,X 值 随 Y 值 的 变 大 而 变 大 。 如 果 rxy 
的 值 较 大 ,数据 可 以 作为 元 余 而 被 删除 。 

WÈ rx, =0, 0 X A Y 是 独立 的 且 互 不 相关 。 

如 果 rx,y 二 0, 则 XX 和 YY 是 负 相 关 的 ,也 就 是 说 ,X 值 随 Y 值 的 减 小 而 变 大 。 也 就 是 说 ， 
一 个 字段 随 着 另 一 个 字段 的 减少 而 增多 。 


39. 
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例 3.4 计算 相关 系数 。 
如 表 3-6 所 示 , 已 知 体重 与 血压 的 12 个 样本 数据 , 试 判断 其 相关 性 。 


表 3-6 体重 与 血压 表 





体重 68 48 56 60 83 56 62 59 77 58 75 64 
血压 95 98 87 96 110 | 155 | 135 | 128 | 113 | 168 | 120 | 115 








K 3-6 可 得 体重 和 血压 的 均值 和 标准 差 值 , 见 表 3-7。 
表 3-7 体重 和 血压 的 均值 和 标准 差 值 














均值 标准 差 
体重 63. 83 10.14 
血压 118.33 24.74 


YR 

可 得 rxy = 三 —— 0.112, 由 于 rxy <0, TA X M Y 是 负 相 关 的 。 

mo xOy 

但 是 ,相关 性 不 代表 因果 关系 。 假 设 X MY 具有 相关 性 ,不 能 代表 X 导致 了 或 者 Y 导 
致 X。 例 如 ,在 超市 售卖 货物 的 时 候 , 会 发 现 卖 出 的 商品 与 货物 的 摆 放 位 置 是 相关 的 ,但 是 
这 并 不 意味 着 卖 出 的 商品 与 商品 的 摆 放 位 置 是 有 因果 关系 的 。 

(2) 数值 数据 的 协 方差 

在 概率 论 和 统计 学 中 , 协 方差 (Covariance) 用 于 衡量 两 个 变量 的 总 体 误差 。 而 方差 是 
协 方差 中 两 个 变量 相同 的 一 种 特殊 情况 。 协 方差 也 可 以 评估 两 个 变量 的 相互 关系 。 

期 望 值 就 是 指 在 一 个 离散 性 随机 变量 试验 中 每 次 可 能 结果 的 概率 乘 以 其 结果 的 总 和 。 

设 有 两 个 属性 X 和 YY, 以 及 有 mm 次 观测 值 的 集合 { (zy ) (zy )，…(znyyn)}), 则 
X 和 YY 的 期 望 值 (均值 ) 为 








Ey) = Y = ==: 


m 





X 和 YY 的 协 方 差 定 义 为 


31 GG — RIND 
Cov(X,Y) = E[(X — X)X(Y — Y)] = += (3-4) 


m 











(3-4) 式 结合 rx,y (相关 系数 ) 的 (3-3) 式 ,得 到 
— Cov(X,Y) 


OxOY 


(3-5) 


rx,y 


其 中 o, 和 oy 分 别 是 XX 和 YY 的 标准 差 。 
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还 可 以 证 明 
Cov(X,Y) 一 下 (X,Y) — XY (3-6) 
当 Cov(CX,Y) 二 0 时 ,表明 X 5; Y EHX; 4 CovCX YO —0 BE, XH X 55 Y f 4826 2H 
Cov(X.Y) —0 t, KH X 与 了 不 相关 。 
假设 属性 X 和 Y 是 相互 独立 的 ,有 
E(X*Y)— EOO * EQ) 


























协 方差 的 公式 是 
Cov(X,Y)= E(X-Y)—XY = E(X)- E(Y)—XY=0 
但 是 , 它 的 逆 命 题 是 不 成 立 的 。 
例 3.5 协 方差 。 
使 用 表 3-4, 求 血压 是 否 会 随 着 体重 一 起 变化 。 
O 计算 期 望 值 
Ecx) — 68 十 48 $60.83 56 s 1 TD 08 E T 6d — 63.83 
E(y) = 95 + 98 +87 + 96 S C 126 01013. 168 1.1201 105 — 118.33 
@ 计算 协 方差 


Cov(X,Y) = rxy * gx * oy —— 0. 112 X 10. 14 X 24. 74 =— 28.10 

协 方差 为 负 , 所 以 血压 和 体重 呈 负 相关 。 

CD 标 称 数据 的 x 检验 

对 于 标 称 数据 ,两 个 属性 X 和 Y 之 间 的 相关 联系 可 以 通过 x*( 卡 方 ) 检 验 发 现 。 假 设 X 
有 nn 个 不 同 值 ,分 别 为 zx ,zx;,… ,zx,,Y 有 vr 个 不 同 值 ,分 别 为 yi syty, ,使 用 相依 表 表 示 
X 和 YY 的 数据 。 

相依 表 是 用 X 的 个 值 作 为 相依 表 的 列 , 用 Y 的 x 个 值 作为 相依 表 的 行 。 使 用 (zx; y 
表示 一 个 联合 事件 : 字段 X 的 值 为 zi 字段 Y IEN y; MX — c Y — 0f oct 
(ziyyi) 的 联合 事件 。 

x OLEK Pearson 入 统计 量 ) 的 计算 如 式 (3-7) : 

好 一 y » Co; =a (3-7) 


i-i j=1 


式 (3-7) 中 的 是 联合 事件 (zy ) 的 观测 频 度 ( 即 实际 计数 ) ,而 ej 是 (zxi,y;) 的 期 望 频 
E. e; 的 计算 如 式 (3-8) 








count(X = z;) X count(Y = y;) (3-8) 
m 





式 (3-8) 中 的 mx 是 数据 元 组 的 个 数 ,count (X= 二 x;) 是 处 上 值 为 xz; 的 元 组 个 数 ,而 count 
(Y= 二 yi) 是 Y 上 值 为 y; 的 元 组 个 数 。 特 别 注意 ,对 x* 值 贡献 最 大 的 单元 是 其 实际 计数 与 期 
望 计数 极 不 相同 的 单元 。 

这 相关 检验 假设 的 X 和 YY 是 独立 的 ,检验 基于 显著 水 平 ,具有 自由 度 (r 一 1) X (n 一 1)。 
例 3.6 可 以 说 明 这 种 统计 量 如 何 使 用 ,如 果 可 以 拒绝 该 假设 , 则 说 明 X # Y 是 统计 相关 的 。 

例 3.6 使 用 x 的 标 称 数 据 的 相关 分 析 。 

假设 有 两 组 疑似 相似 的 数据 fault_phenomenon 和 fault_appearance, 通 过 人 工 观 察 发 
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现 ,它们 都 是 对 故障 现象 的 描述 ,其 取 值 分 别 为 fault. phenomenon = ( pi » p; » pi) » fault _ 
appearance 王 {pi1,p;,p3)。 这 两 组 数据 的 具体 情况 如 表 3-8 所 示 。 


表 3-8 fault phenomenon 和 fault appearance 的 属性 值 





fault phenomenon b: b b. hi b: b. hi hi P: hi 
fault appearance ps | b: | bi | bi | b: | bi | 55 | b |h bi 


为 验证 这 两 组 数据 的 一 致 性 , 先 假设 fault phenomenon 和 fault appearance 是 独立 的 ， 
则 它们 的 相依 表 如 表 3-9 所 示 。 


表 3-9 fault_phenomenon 和 fault appearance 相依 表 



































b b: ps 合计 
b 2(2.5) 2(1.5) 100 5 
b: 10.5) 1(0.9) 10.5) 3 
bi 200 00. 6) 0(0.4) 2 
合计 5 3 2 10 
由 公式 可 得 
, _ (2 — 2. 52° (2—1.5* (1 — D* 《1 一 1.5)2 | (1—0.9)* | 
2.5 1.5 1 1.5 0.9 
ü0—1.5) ,(2—1* , (6=0:6)2 , 000; 4 
2.5 1 i 0.6 0.4 
一 0.1 十 0.167 十 0 十 0.167 十 0.011 十 0.167 十 1 十 0.6 十 0.4 
一 2.612 


由 计算 的 结果 可 以 得 知 fault_phenomenon 和 fault_appearance 的 相关 系数 为 2. 612 ,不 
为 零 ,之 前 的 假设 是 不 成 立 的 。 因 此 ,可 以 认为 这 两 个 属性 之 间 是 相关 的 。 


3.4 数据 归 约 


数据 归 约 是 指 在 对 挖掘 任务 和 数据 自身 内 容 理解 的 基础 上 ,通过 删除 列 、 删 除 行 和 减少 
列 中 值 的 数量 , 删 掉 不 必要 的 数据 以 保留 原始 数据 的 特征 。 从 而 在 尽 可 能 保持 数据 原貌 的 
前 提 下 最 大 限度 地 精简 数据 量 。 

数据 归 约 技术 可 以 得 到 数据 集 的 归 约 表示 ,虽然 小 ,但 仍 大 致 保持 原 数 据 的 完整 性 。 在 
归 约 后 的 数据 集 上 挖掘 将 更 有 效 , 并 产生 相同 (或 几乎 相同 ) 的 分 析 结果 。 

数据 归 约 的 策略 主要 如 下 。 

CD 数量 归 约 : 通过 直方 图 、 聚 类 和 数据 立方 体 聚 集 等 非 参 数 方法 ,使 用 替代 的 、 较 小 的 
数据 表示 形式 蔡 换 原 数据 。 

© 属性 子 集 选择 : 检测 并 删除 不 相关 、 弱 相关 或 元 余 的 属性 。 

© 抽样 : 使 用 比 数据 小 得 多 的 随机 样本 表示 大 型 的 数据 集 。 

CD 回归 和 对 数 线性 模型 : 对 数据 建 模 ,使 之 拟 合 到 一 条 直线 ,主要 用 来 近似 给 定 的 
数据 。 
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© 维度 归 约 : 通过 小 波 变换 、 主 成 分 分 析 等 特征 变换 方式 减少 特征 数目 。 
3.4.1 直方 图 


直方 图 (Histogram) 是 一 种 常见 的 数据 归 约 的 形式 。 属 性 X 的 直方 图 将 X 的 数据 分 
布 划分 为 不 相交 的 子 集 或 桶 。 通 常情 况 下 , 子 集 或 桶 表示 给 定 属性 的 一 个 连续 区 间 。 单 值 
桶 表示 每 个 桶 只 代表 单个 属性 值 /频率 对 ( 单 值 桶 对 于 存放 那些 高 频率 的 离 群 点 非常 有 效 ) 。 

划分 桶 和 属性 值 的 规则 有 以 下 几 点 。 

(D 等 宽 : 在 等 宽 直 方 图 中 ,每 个 桶 的 宽度 区 间 是 一 致 的 。 例 如 ,图 3-2 中 的 桶 宽 就 是 
1036. 
O 等 频 (或 等 深 ) : 在 等 频 直 方 图 中 ,每 个 桶 的 频率 粗略 地 计 为 常数 , 即 每 个 桶 大 致 包 
含 相同 个 数 的 邻近 数据 样本 。 

例 3.7 用 直方 图 表示 数据 。 

已 知 某 人 在 不 同时 刻下 所 量 的 血压 值 为 95,98,87,96,110,155,135,128,113,168， 
120,115,110,155,135,128,113,158,87,96,110,98,87,94,80,93,89,95,99,101,111,123， 
128.113.158.128.113.168.87.96.110. 

使 用 等 宽 直 方 图 表示 数据 ,如 图 3-3 所 示 。 由 于 需要 继续 压缩 数据 ,所 以 一 般 都 是 使 用 
桶 表示 某 个 属性 的 一 个 连续 值 域 ,如 图 3-3 中 的 每 个 桶 都 代表 不 同 的 血压 值 的 区 间 为 20。 
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3-3 用 直方 图 表示 数据 
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4: 。 数据 分 析 与 数据 挖 握 


3.4.2 数据 立方 体 聚集 


数据 立方 体 是 一 类 多 维 矩 阵 , 可 以 使 用 户 从 多 个 角度 探索 和 分 析 数 据 集 , 它 的 数据 是 已 
经 处 理 过 的 ,并 且 聚 合成 了 立方 形式 。 下 面 介绍 一 些 数据 立方 体 的 基本 概念 。 


O F: 不 同 层 创建 的 数据 立方 体 。 

@ 基本 方 体 : 最 低 抽象 层 创 建 的 立方 体 。 
O 顶点 方 体 : 最 高 层 抽象 的 立方 体 。 

(D 方 体 的 格 : 每 一 个 数据 立方 体 。 


已 知 某 工厂 的 全 部 工人 2008 年 至 2010 年 的 每 季度 的 体检 结果 。 该 结果 如 图 3-4 所 
示 。 那 么 ,如 果 想 要 得 到 每 个 人 每 年 的 体检 总 值 而 不 是 每 季度 的 值 ,就 可 以 对 这 些 数 据 进 行 


KR, 








3.4mmol/L 
5.2mmol/L 
42mmol/L 
4.8mmol/L 















17.6mmol/L 


18.5mmol/L 
16.9mmol/L 





图 3-4 X IJ 2008 # # 2010 年 工人 的 体检 结果 


图 3-5 是 数据 立方 体 聚 集 的 结果 ,每 个 单元 的 聚集 值 表 示 了 多 维 空间 的 一 个 数据 点 。 


IA! 


总 胆固醇 
白细胞 
血清 钾 

甘油 三 酯 


体检 项 目 








2010 
图 3-5 某 工 厂 工人 体检 的 数据 立方 体 


每 个 属性 都 可 能 存在 概念 分 层 , 所 以 ,可 以 在 多 个 抽象 层 进行 数据 分 析 。 例 如 ,如 果 想 
要 分 析 这 个 工厂 的 大 部 分 工人 容易 得 哪 种 病 , 就 可 以 通过 这 个 数据 立方 体 快速 查看 出 哪 项 


指标 大 部 分 的 工人 都 不 合格 。 


使 用 数据 立方 体 可 以 使 预计 算 的 汇总 数据 能 够 快速 访问 ,因此 适合 联机 数据 分 析 和 数 
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据 挖掘 。 
3.4.3 属性 子 集 选 择 


属性 子 集 选择 是 从 一 组 已 知 属性 集合 中 通过 删除 不 相关 或 元 余 的 属性 (或 维 ) 减 少数 据 
量 。 属 性 子 集 选择 主要 是 为 了 找 出 最 小 属性 集 ,使 所 选 的 最 小 属性 集 可 以 像 原 来 的 全 部 属 
性 集 一 样 用 来 正确 区 分 数据 集中 的 每 个 数据 对 象 。 这 样 可 以 提高 数据 处 理 的 效率 ,简化 学 
习 模 型 ,并 使 模型 更 易于 理解 。 

属性 子 集 选择 的 基本 启发 式 方法 包括 逐步 向 前 选择 .逐步 向 后 删除 .逐步 向 前 选择 和 逐 
步 向 后 删除 的 组 合 以 及 决策 树 归纳 , 表 3-10 给 出 了 属性 子 集 选择 方法 。 


表 3-10 属性 子 集 选 择 方法 





向 前 选择 向 后 删除 决策 树 归纳 
初始 属性 集 : 初始 属性 集 : 初始 属性 集 : 
{X1 ,Xs Xs X Xs Xe} | (IX XoXoXoX X0 X X Xs», X Xs» Xo} 
初始 化 归 约 集 : =>(X,,X,,X,,X.,X;.X.) Y N 





0 UG ,Xs Xi Xs ,Xe} 
= (x) 一 (XXXs ,Xe) 1 
> (X.,X.) > (X,,X.,X,) — x 
US X Xs) 

Y |N Y|N 


NENNEN 
(Classl ) (Class2 ) (Class1) ( Class2 ) 























过 归 约 后 的 属性 集 : 之 归 约 后 的 属性 集 : 一 归 约 后 的 属性 集 : 
XX [xs XX) 6X X 
CD 逐步 向 前 选择 


以 空 的 属性 集 作为 开始 ,首先 确定 原 属性 集中 最 好 的 属性 (如 表 3-10 所 示 ,初始 化 归 约 
集 后 ,首先 选择 属性 X ) ,将 它 添加 到 归 约 后 的 属性 集中 。 然 后 继续 迭代 ,每 次 都 从 原 属 性 
集 剩 下 的 属性 中 寻找 最 好 的 属性 并 添加 到 归 约 后 的 属性 集中 (如 表 3-10 所 示 , 依 次 选择 属 
性 X, 和 Xe ,最 终 得 到 归 约 后 的 属性 集 {X4 XL ,Xe))。 

(2) 逐步 向 后 删除 

从 原 属性 集 开 始 ,删除 在 原 属性 集中 最 差 的 属性 (如 表 3-10 所 示 ,首先 删除 属性 X。) ， 
然后 依次 迭代 (如 表 3-10 所 示 ,再 依次 删除 属性 X 和 X; ,最 终 得 到 归 约 后 的 属性 集 { Xi， 
Woh 

(3) 决策 树 归纳 

使 用 给 定 的 数据 构造 决策 树 ,假设 不 出 现在 树 中 的 属性 都 是 不 相关 的 。 决 策 树 中 每 个 
非 叶子 节点 代表 一 个 属性 上 的 测试 ,每 个 分 支 对 应 一 个 测试 的 结果 ,每 个 叶子 节点 代表 一 个 
类 预测 (如 表 3-10 所 示 , 对 于 属性 Xi 的 测试 ,结果 为 “是 ”的 对 应 Classl 的 类 预测 结果 ; 结 
果 为 “ 否 ”的 对 应 Class2 的 类 预测 结果 )。 在 每 个 节点 上 ,算法 选择 “最 好 ”的 属性 ,将 数据 划 
分 成 类 。 出 现在 树 中 的 属性 形成 归 约 后 的 属性 子 集 。 

以 上 这 些 方 法 的 结束 条 件 都 可 以 是 不 同 的 ,最 终 都 通过 一 个 度量 阔 值 确定 何 时 结束 属 
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性 子 集 的 选择 过 程 。 
也 可 以 使 用 这 些 属性 创造 某 些 新 属性 ,这 就 是 属性 构造 。 例 如 ,已 知 属性 "radius CE 
径 )”, 可 以 计算 出 “area( 面 积 )”。 这 对 于 发 现 数据 属性 间 联 系 的 缺少 信息 是 有 用 的 。 


3.4.4 抽样 


抽样 在 统计 中 主要 是 在 数据 的 事先 调查 和 数据 分 析 中 使 用 。 抽 样 是 非常 常用 的 方法 ， 
用 于 选择 数据 子 集 ,然后 分 析出 结果 。 但 是 ,抽样 在 统计 学 与 数据 挖掘 中 的 使 用 目的 是 不 同 
的 。 统 计 学 使 用 抽样 ,主要 是 因为 得 到 数据 集 太 费时 费力 ;数据 挖掘 使 用 抽样 ,主要 是 因为 
处 理 这 些 数据 太 耗 费时 间 并 且 代 价 太 大 ,使 用 抽样 在 某 种 情况 下 会 压缩 数据 量 。 

有 效 抽样 的 理论 是 : 假设 有 代表 性 的 样本 集 .那么 样本 集 和 全 部 的 数据 集 被 使 用 且 得 
到 的 结论 是 一 样 的 。 例 如 ,假设 对 数据 对 象 的 均值 感 兴趣 ,并 且 样 本 的 均值 近似 于 数据 集 的 
均值 , 则 样本 是 有 代表 性 的 。 但 是 抽样 是 一 个 过 程 ,特定 的 样本 的 代表 性 不 是 不 变 的 ,所 以 
最 好 选择 一 个 确保 以 很 高 的 概率 得 到 有 代表 性 的 样本 的 抽样 方案 。 抽 样 的 效果 取决 于 样本 
的 大 小 和 抽样 的 方法 。 

假定 大 型 数据 集 D 包含 N 个 元 组 。 几 种 常用 的 抽样 方法 如 下 。 

CD 无 放 回 的 简单 随机 抽样 方法 (SRSWOR ) : 该 方法 从 N 个 元 组 中 随机 (每 一 数据 行 


被 选中 的 概率 为 让 ) 抽 取出 nn 个 元 组 ,以 构成 抽样 数据 子 集 。 


© 有 放 回 的 简单 随机 抽样 方法 (SRSWR): 该 方法 与 无 放 回 简单 随机 抽样 方法 类 似 ， 
也 是 从 N 个 元 组 中 每 次 抽取 一 个 元 组 ,但 是 抽 中 的 元 组 接着 放 回 原来 的 数据 集 D 中 ,以 构 
成 抽样 数据 子 集 。 这 种 方法 可 能 会 产生 相同 的 元 组 。 












































图 3-6 表示 无 放 回 的 简单 随机 抽样 方法 和 有 放 回 的 简单 随机 抽样 方法 。 
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3-6 无 放 回 和 有 放 回 的 简单 随机 抽样 方法 示意 图 


© 分 层 抽样 (Stratified Sampling): 在 当 总 体 由 不 同类 型 的 对 象 组 成 ,上 且 每 种 类 型 的 对 
象 数量 差别 很 大 时 使 用 。 分 层 抽 样 需要 预先 指定 多 个 组 ,然后 从 每 个 组 中 抽取 样本 对 象 。 
一 种 简单 的 方法 是 从 每 个 组 中 抽取 相同 数量 的 对 象 ,而 不 管 这 些 组 的 大 小 是 否 相 同 。 另 一 
种 方法 是 从 每 一 组 抽取 的 对 象 数量 正比 于 该 组 的 大 小 。 

选择 好 了 抽样 技术 ,那么 就 需要 选择 样本 容量 了 。 过 多 的 样本 容量 会 使 计算 变 得 庞杂 ， 
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但 是 却 可 以 使 样本 更 具有 代表 性 ;过 少 的 样本 容量 可 以 使 计算 变 得 简单 ,但 是 却 可 能 使 结果 
不 准确 。 所 以 确定 适当 的 样本 容量 同样 很 重要 。 


3.5 数据 变换 与 数据 离散 化 


3.5.1 数据 变换 策略 及 分 类 


数据 变换 是 将 数据 转换 为 适合 于 数据 挖掘 的 形式 ,数据 变换 策略 主要 包括 光滑 .聚集 、 
数据 泛 化 .规范 化 .属性 构造 和 离散 化 。 

(D 光滑 : 去 掉 数据 中 的 噪声 。 这 类 技术 包括 分 箱 、 回 归 和 聚 类 。 

O RE.: 对 数据 进行 汇总 或 聚集 。 例 如 ,可 以 聚集 某 超市 每 一 季度 的 销售 商品 数据 ， 
以 获得 商品 年 销售 量 。 一 般 来 说 ,聚集 主要 用 来 为 多 粒度 的 数据 分 析 构造 数据 立方 体 。 

C 数据 泛 化 : 使 用 概念 分 层 ,用 高 层 概念 替换 底层 或 “原始 ?数据 。 例 如 ,可 以 把 某 超 
市 的 顾客 家 庭 住 址 泛 化 为 较 高 层 的 概念 ,如 city,district,street。 图 3-7 就 是 属性 price 的 
数据 泛 化 。 


C oo ) ( 24 ) ÇC ns ) (C sso ) ( so ) 


(0-10) (11-20) (21-30) (31-40) — (41-50) [sr6oj [cr-7zo] (71-80) (81-90) ptog 


























图 3-7 属性 price 的 数据 泛 化 


CD 规范 化 : 把 属性 数据 按 比 例 缩放 ,使 之 落 入 一 个 特定 的 小 区 间 , 如 一 10.0 一 0.0 或 
0.0 一 10.0。 

© 属性 构造 (特征 构造 ): 通过 已 知 的 属性 构建 出 新 的 属性 ,然后 放 和 人 属性 集中 ,有 助 
于 挖掘 过 程 。 

© 离散 化 : 数值 属性 (如 年 龄 ) 的 原始 值 用 区 间 标 签 ( 如 0 一 10 或 11 一 20) 或 概念 标签 
(如 youth, adult, senior) 蔡 换 。 


3.5.2 数据 泛 化 


概念 分 层 可 以 用 来 泛 化 数据 ,虽然 这 种 方法 可 能 会 丢失 某 些 细节 ,但 泛 化 后 的 数据 更 有 
意义 、 更 容易 理解 。 

对 于 数值 属性 ,概念 分 层 可 以 根据 数据 的 分 布 自动 地 构造 ,如 用 分 箱 直方 图 分 析 、 聚 类 
分 析 、 基 于 炉 的 离散 化 和 自然 划分 分 段 等 技术 生成 数据 概念 分 层 。 

对 于 分 类 属性 ,有 时 可 能 具有 很 多 个 值 。 如 果 分 类 属性 是 序数 属性 , 则 可 以 使 用 类 似 于 
处 理 连 续 属 性 方法 的 技术 ,以 减少 分 类 值 的 个 数 。 如 果 分 类 属性 是 标 称 的 或 无 序 的 ,就 需要 
使 用 其 他 方法 。 例 如 ,一 所 大 学 由 许多 系 组 成 , 系 名 属性 可 能 具有 数 十 个 值 。 在 这 种 情况 
下 ,可 以 使 用 系 之 间 的 学 科 联系 ,将 系 合并 成 较 大 的 学 科 ; 或 使 用 更 为 经 验 性 的 方法 , 仅 当 分 
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类 结果 能 提高 分 类 准确 率 或 达到 某 种 其 他 数据 挖掘 目标 时 , 才 将 值 聚 集 到 一 起 。 

由 于 一 个 较 高 层 的 概念 通常 包含 若干 从 属 的 较 低层 概念 ,高 层 概念 属性 (如 city) 与 低 
层 概念 属性 (如 street) 相 比 ,通常 包含 较 少数 目的 值 。 据 此 ,可 以 根据 给 定 属性 集中 每 个 属 
性 不 同 值 的 个 数 自动 产生 概念 分 层 。 具 有 越 多 不 同 值 的 属性 在 分 层 结构 中 层次 就 越 低 , 属 
性 的 不 同 值 越 少 ,所 产生 的 概念 在 分 层 结构 中 所 处 的 层次 就 越 高 。 

例 3.8 根据 每 个 属性 的 不 同 值 的 个 数 产生 概念 分 层 。 

服装 类 的 级 别 可 以 分 为 男装 和 女装 ,然后 接 下 去 可 以 分 为 上 装 和 下 装 。 

服装 的 概念 分 层 可 以 自动 产生 ,如 图 3-8 所 示 。 








图 3-8 服装 的 概念 分 层 


首先 ,根据 每 个 属性 的 不 同 值 的 个 数 ,将 属性 按 升序 排列 。 其 次 ,按照 排 好 的 次 序 , 自 顶 
向 下 产生 分 层 ,第 一 个 属性 在 最 顶层 ,最 后 一 个 属性 在 最 底层 。 最 后 ,用 户 考察 所 产生 的 分 
层 , 并 进行 必要 的 修改 ,以 反映 属性 之 间 期 望 的 语义 联系 。 在 这 个 例子 中 ,显然 不 需要 修改 
所 产生 的 分 层 。 


3.5.3 数据 规范 化 


数据 规范 化 是 通过 将 数据 压缩 到 一 个 范围 内 (通常 是 0 一 1 或 者 一 1 一 1) ,赋予 所 有 属性 
相等 的 权重 。 对 于 神经 网 络 的 分 类 算法 或 者 基于 距离 度量 的 分 类 和 聚 类 ,规范 化 是 特别 有 
用 的 。 但 是 有 些 时 候 并 不 需要 规范 化 ,例如 ,算法 使 用 相似 度 函数 而 不 是 距离 函数 的 时 候 ; 
再 例如 随机 森林 算法 , 它 从 不 比较 一 个 特征 与 男 一 个 特征 ,因此 也 不 需要 规范 化 。 

数据 规范 化 的 常用 方法 有 三 种 : 按 小 数 定 标 规范 化 、 最 小 -最 大 值 规 范 化 和 z-score 规范 
化 。 


1. 按 小 数 定 标 规范 化 
通过 移动 属性 值 的 小 数 点 的 位 置 进行 规范 化 ,通俗 地 说 就 是 将 属性 值 除 以 10 的 j 次 


笑 , 使 其 值 落 在 一 1 到 1 的 范围 内 。 
属性 A 的 值 v; 被 规范 化 v!, 其 计算 公式 为 


= = (3-9) 
例 3.9 按 小 数 定 标 规范 化 。 


设 某 属性 的 最 大 值 为 5870, 最 小 值 为 2320, 请 按 小 数 定 标 规范 化 ,从 而 使 属性 值 缩小 到 
[一 1,1] 的 范围 内 。 
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题 中 属性 的 最 大 绝对 值 为 5870 ,显然 只 要 将 属性 中 的 值 分 别 除 以 10000 ,就 满足 max 
Cot D 1 ixi j—5870 规范 化 后 为 0. 587, 而 2320 被 规范 化 为 0.232。 达 到 了 将 属性 值 
缩 到 小 的 特定 区 间 [ 一 1,1] 的 目标 。 


2. 最 小 -最 大 值 规范 化 


最 小 -最 大 值 规范 化 对 原始 数据 进行 了 线性 变化 。 
假设 minA 和 maxA 分 别 表示 属性 A 的 最 小 值 和 最 大 值 , 则 最 小 -最 大 值 规范 化 计算 公 
式 为 


v=- A 0-a) ta (3-10) 
HP u kO RAT i 的 原 属性 值 ,vi 表示 规范 化 的 属性 值 。[a,5] 表 示 A 属性 的 所 有 值 


在 规范 化 后 落 入 的 区 间 。 

例 3.10 最 小 -最 大 值 规范 化 。 

某 公 司 员 工 的 最 大 年 龄 为 52 岁 , 最 小 年 龄 为 21 岁 , 请 将 年 龄 映射 到 区 间 [0.0,1.0] 的 
范围 内 。 


根据 最 小 -最 大 值 规范 化 ,44 岁 将 变换 为 





44 一 21 
52—21 





(1.0—0) 4-020, 742, 


3. z-score 规范 化 


这 种 方法 是 基于 属性 的 均值 和 标准 差 进行 规范 化 的 。 
z-score 规范 化 的 计算 公式 为 
v= 2A 
oA 

其 中 ,wv 表示 对 象 i 的 原 属性 值 ,vw 表示 规范 化 的 属性 值 ,A 表示 属性 A 的 平均 值 ,oa 表 
示 属 性 A 的 标准 差 。 

例 3.11 z-score 规范化。 

某 公 司 员工 的 平均 值 和 标准 差分 别 为 25 岁 和 11 岁 。 请 根据 z-score 规范 化 ,将 44 岁 
这 个 数据 规范 化 。 


44 岁 变 换 为 42 


3.5.4 数据 离散 化 


连续 变量 的 离散 化 就 是 将 具体 性 的 问题 抽象 为 概括 性 的 问题 ,即将 它 取 值 的 连续 区 间 
划分 为 小 的 区 间 ,再 将 每 个 小 区 间 重 新 定义 为 一 个 唯一 的 取 值 。 例 如 ,学 生 考试 成 绩 可 以 划 
分 为 两 个 区 间 ,[0,60) 为 不 及 格 ,[60,100] 为 及 格 。60 是 两 个 区 间 的 分 界 点 , 称 为 断 点 。 断 
点 就 是 小 区 间 的 划分 点 ,区 间 的 一 部 分 数据 小 于 断 点 值 , 另 一 部 分 数据 则 大 于 等 于 断 点 值 。 
选取 断 点 的 方法 不 同 , 从 而 产生 了 不 同 的 离散 化 方法 。 

对 连续 变量 进行 离散 化 处 理 , 一 般 经 过 以 下 步骤 。 

CD 对 连续 变量 进行 排序 。 

@ 选择 某 个 点 作为 候选 断 点 ,根据 给 定 的 要 求 , 判 断 此 断 点 是 否 满足 要 求 。 





(3-11) 





221.727, 
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© 若 候选 断 点 满足 离散 化 的 要 求 , 则 对 数据 集 进行 分 裂 或 合并 ,再 选择 下 一 个 候选 
断 点 。 

@ 重复 步骤 @ 和 @ ,如 果 满 足 停止 准则 , 则 不 再 进行 离散 化 过 程 ,从 而 得 到 最 终 的 离散 
结果 。 
CD 分 箱 法 
分 箱 法 主要 包括 等 宽 分 箱 法 和 等 深 分 箱 法 ,它们 是 基本 的 离散 化 算法 。 分 箱 的 方法 是 
基于 箱 的 指定 个 数 自 顶 向 下 的 分 裂 技术 ,在 离散 化 的 过 程 中 不 使 用 类 信息 ,属于 无 监督 的 离 
散 化 方法 。 等 宽 分 箱 法 ,就 是 使 数据 集 在 整个 属性 值 的 区 间 上 平均 分 布 , 即 每 个 箱 的 区 间 范 
围 是 一 个 常量 , 称 为 箱子 宽度 。 等 深 分 箱 法 是 要 把 这 些 数据 按照 某 个 定 值 分 箱 , 这 个 数值 就 
是 每 箱 的 记录 的 行 数 , 也 称 为 箱子 的 深度 。 在 等 宽 或 等 频 划分 后 ,可 以 用 每 个 箱 中 的 中 位 数 
或 者 平均 值 蔡 换 箱 中 的 所 有 值 ,实现 特征 的 离散 化 。 

$013.12. 分 箱 法 。 

某 公 司 存储 员工 信息 的 数据 库 中 表示 收入 的 字段 income 排序 后 的 值 ( 元 ) 如 下 : 900， 
1000,1300,1600,1600,1900,2000,2400,2600,2900,3000,3600,4000,4600,4900,5000。 请 
分 别 按照 等 深 分 箱 法 和 等 宽 分 箱 法 的 方法 分 箱 。 

等 深 分 箱 法 : 设 定 权 重 (箱子 深度 ) 为 4, 分 箱 后 

箱 1: 900.1000.1300.1600 

箱 2: 1600,1900,2000,2400 

箱 3: 2600,2900,3000,3600 

箱 4: 4000,4600,4900,5000 

结果 为 

箱 1: 1200,1200,1200,1200 

箱 2: 1975,1975,1975,1975 

箱 3: 3025,3025,3025,3025 

箱 4: 4625,4625,4625,4625 

等 宽 分 箱 法 : 设 定 区 间 范 围 (箱子 宽度 ) 为 1000 元 ,分 箱 后 

箱 1: 900.1000.1300.1600.1600.1900 

箱 2: 2000,2400,2600,2900,3000 

箱 3: 3600.4000.4600 

箱 4: 4900,5000 

结果 为 

箱 1: 1383,1383,1383,1383,1383 ,1383 

箱 2: 2580,2580,2580,2580,2580 

48 3: 4067 .4067.4067 

48 4: 4950.4950 

(2) 直方 图 分 析 法 

3.4.1 节 中 已 经 介绍 了 直方 图 的 基本 信息 ,直方 图 也 可 以 用 于 数据 离散 化 。 它 能 够 递 
归 地 用 于 每 一 部 分 ,可 以 自动 产生 多 级 概念 分 层 , 直 到 满足 用 户 需 求 的 层次 水 平 后 结束 。 

例如 ,图 3-9 是 某 数据 集 的 分 布 直方 图 ,被 划分 成 了 范围 相等 的 区 间 (79 一 99,99 一 
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119,…，,159 一 179) ,这 就 产生 了 多 级 概念 分 层 。 


25 
20 
15 
10 
. 
0 B -— -— 
79-99 99-119 119-139 139-159 159-179 
图 3-9 某 数据 集 的 分 布 直方 图 
3.6 习题 
. 数据 预 处 理 的 主要 方法 有 哪些 ?” 每 个 方法 的 主要 内 容 是 什么 ? 
. 高 质量 的 数据 有 哪些 性 质 ? 


.是否 存在 可 以 用 于 预测 的 标识 号 ?如 果 有 ,请 给 出 例子 。 
. 使 用 例 3. 2 húyg cR HEB B (s 6 , 非 邻 点 样本 的 阔 值 部 分 为 2 的 噪声 数据 。 
5. 以 下 规范 方法 的 值 域 是 什么 ? 
(1) z-score 规范 化 。 
(2) 小 数 定 标 规范 化 。 
(3) 最 小 -最 大 值 规范 化 。 
6. 某 工 厂 工人 体检 的 血压 值 结果 如 下 (已 按 递 增 排序 ) : 
73,75,76,86,89,90,90,91,92,92,105,105,105,105,120,133,134,134,135,135,135, 
135,136,140,145,146,152,160, 
试 回答 下 列 问 题 。 
C) 使 用 z-score 规范 化 转换 血压 值 135, 其 中 血压 的 标准 偏差 为 12. 94. 
(2) 使 用 小 数 定 标 规范 化 转换 血压 值 135。 
(3) 使 用 最 小 -最 大 值 规范 化 ,将 血压 值 135 转换 到 [0.0,1. 0] 区 间 。 
7. 什么 是 数据 规范 化 ? 有 哪些 方法 ? 
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信息 管理 系统 的 广泛 应 用 使 各 行业 积累 了 大 量 有 重要 潜在 价值 的 历史 数据 ,从 而 激发 
起 对 数据 分 析 功 能 的 更 高 要 求 ,数据 仓库 由 此 得 以 快速 发 展 。 构 造 数据 仓库 的 过 程 可 以 看 
作 挖掘 多 维 数据 的 预 处 理 过 程 。 

本 章 主 要 介绍 数据 仓库 的 基本 概念 数据 仓库 的 设计 和 实现 问题 ,联机 分 析 处 理 
(OLAP) \ 元 数据 模型 数据 立方 体 ( 用 于 数据 仓库 .OLAP 以 及 OLAP 操作 的 多 维 数据 模 
型 ) 以 及 数据 泛 化 等 问题 。 


4.1 数据 仓库 的 基本 概念 


4.1.1 数据 仓库 的 定义 


数据 仓库 的 概念 始 于 20 世纪 80 年 代 中 期 ,首次 出 现在 被 誉 为 “数据 仓库 之 父 ” 的 
William H. Inmon 所 著 的 《建立 数据 仓库 ) 一 书 中 。 随 着 人 们 对 大 型 数据 库 系统 的 研究 、 管 
理 \ 维 护 等 方面 的 深刻 认识 和 不 断 完善 , 在 总 结 、 丰 富 、 集 中 多 行业 企业 信息 的 经 验 后 ,为 数 
据 仓 库 给 出 了 更 为 精确 的 定义 , 即 数据 仓库 是 一 个 面向 主题 的 、 集 成 的 .时 变 的 、 非 易 失 的 数 
据 集合 ,支持 管理 者 的 决策 过 程 。 

数据 仓库 是 一 种 集成 型 数据 库 ,也 可 以 看 作 是 多 维 异 构 历史 数据 的 存储 过 程 。 当 历史 
数据 长 期 积累 ,传统 的 联机 事务 处 理 (Online Transaction Processing,OLTP) 数 据 库 无 法 满 
足 决策 支持 的 需求 时 ,数据 仓库 成 为 必然 选择 。 数 据 仓 库 所 具有 的 功能 可 概括 为 面向 业务 
的 主题 内 容 、 汇 总 并 统一 日 常 操作 数据 ,掌握 并 管理 历史 信息 的 变换 和 积累 ,使 用 与 处 理 过 
程 、 实 现 数据 在 逻辑 上 的 集成 。 简 单 来 说 ,数据 仓库 的 目的 是 合并 和 组 织 历史 数据 ,并 借助 
一 些 分 析 工 具 , 帮 助 决策 者 从 数据 中 发 现 重 要 的 隐藏 事实 。 这 些 历史 数据 的 来 源 通常 多 种 
多 样 ,可 以 来 源 于 OLTP 系统 、 文 本 文件 .图 表 或 电子 表格 等 。 数 据 仓库 整合 这 些 多 维 数 
据 , 对 其 进行 清理 ,转换 和 组 织 , 得 到 精准 一 致 的 数据 集 , 有 利于 后 续 高 效 地 查询 分 析 过 程 。 


4.1.2. 数据 仓库 的 性 质 


区 别 于 其 他 数据 存储 系统 ,如 关系 数据 库 系 统 、 事 务 处 理 系统 和 文件 系统 ,数据 仓库 有 
以 下 四 个 关键 性 质 。 

(1) 面向 主题 

主题 是 在 较 高 层次 上 将 企业 信息 系统 中 的 数据 进行 综合 、 归 类 和 分 析 利 用 的 一 个 抽象 
概念 ,每 一 个 主题 基本 对 应 一 个 宏观 的 分 析 领 域 。 在 逻辑 意义 上 , 它 是 对 应 企业 中 某 一 宏观 
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分 析 领 域 所 涉及 的 分 析 对 象 。 例 如 “销售 分 析 ” 就 是 一 个 分 析 领 域 ,因此 这 个 数据 仓库 应 用 
的 主题 就 是 “销售 分 析 ”。 

数据 仓库 紧 紧 围绕 决策 者 (如 顾客 .供应 商 和 销售 组 织 ) 所 关注 的 主题 的 数据 建 模 和 分 
析 ,排除 对 于 决策 者 无 用 的 数据 ,提供 该 特定 主题 的 简明 视图 。 这 种 面向 主题 的 数据 组 织 方 
式 ,完整 统一 地 刻画 了 各 个 分 析 对 象 所 涉及 的 企业 中 各 项 数据 之 间 的 联系 。 

(2) 集成 性 

数据 仓库 中 的 数据 来 自 于 多 个 异 构 数据 源 ,如 关系 数据 库 、 联 机 事务 处 理 记录 和 一 般 文 
件 , 通 过 使 用 数据 清理 和 数据 集成 技术 整合 到 数据 仓库 中 。 由 于 原始 数据 一 般 不 适合 用 于 
分 析 处 理 ,简单 的 复制 又 难以 保证 数据 的 质量 ,因此 必须 进行 清理 集成 ,包括 编码 转换 .单位 
转换 .字段 转换 等 ,以 确保 结果 数据 中 编码 结构 .度量 属性 、 命 名 约定 的 一 致 性 。 

(3) 与 时 间 相 关 

数据 仓库 关注 历史 数据 ,其 关键 结构 总 是 包含 时 间 元 素 , 利 用 它 抽 取 到 的 知识 与 信息 ， 
也 间接 体现 出 所 属 时 段 的 特性 。 

(4) 不 可 变更 

从 数据 的 使 用 方式 角度 来 看 ,数据 仓库 只 需要 两 种 访问 操作 : 数据 的 初始 化 装 入 和 数 
据 访问 。 当 数据 存放 到 数据 仓库 中 以 后 ,用 户 是 不 需要 且 不 能 修改 数据 仓库 中 的 数据 的 。 
此 ,数据 仓库 可 被 理解 为 一 种 语义 上 一 致 的 数据 存储 ,通过 集成 异 构 数 据 源 中 的 数 
据 , 整 合 企业 战略 决策 所 需要 的 信息 。 


4.1.3. 数据 仓库 体系 结构 


数据 仓库 是 一 个 环境 ,为 了 高 效 地 把 操作 型 历史 数据 集成 到 统一 的 环境 中 并 提供 决策 
型 数据 访问 与 挖掘 , 它 通常 采用 一 种 三 层 体系 结 构 , 如 图 4-1 所 示 , 包 括 数据 仓库 服务 器 、 
OLAP 服务 器 ,前端 工具 。 

CD 底层 : 数据 仓库 服务 器 

使 用 一 些 后 端 工具 和 实用 程序 ,对 其 他 外 部 数据 源 的 数据 进行 提取 、 清 理 、 变 换 、 装 入 和 
刷新 ,将 高 质量 的 数据 更 新 到 数据 仓库 。 数 据 集 市 也 称 为 数据 市 场 ,是 一 个 从 操作 的 数据 和 
其 他 为 某 个 特殊 的 专业 人 员 团 体 服务 的 数据 源 中 收集 数据 的 仓库 ,是 数据 仓库 的 子 集 。 

(2) 中 间 层 : OLAP 服务 器 

联机 分 析 处 理 (Online Analytical Processing,OLAP) 是 数据 仓库 系统 前 端 分 析 服 务 的 
分 析 工 具 , 能 快速 汇总 大 量 数据 并 进行 高 效 查 询 分 析 ,为 分 析 人 员 提 供 决策 支持 。 使 用 
OLAP 相关 模型 将 多 维 数据 上 的 操作 映射 为 标准 的 关系 操作 ,或 者 直接 实现 多 维 数据 操 
作 。OLAP 操作 可 以 与 关联 、 分 类 、 预 测 、 聚 类 等 数据 挖掘 功能 结合 ,以 加 强 多 维 数 据 
挖掘 。 

(3) 顶层 : 前 端 工 具 

包括 数据 挖掘 工具 (如 趋势 分 析 、 预 测 等 ) 数据 分 析 工 具 和 查询 与 报表 工具 ,用 于 知识 
工人 (如 经 理 、 主 管 . 分 析 人 员 等 ) 直 接 操作 获取 知识 。 

这 种 数据 仓库 体系 结构 能 够 有 效 地 支持 海量 数据 的 存储 与 快速 检索 。 设 计 良 好 的 数据 
仓库 结构 与 强大 的 OLAP 分 析 工 具 能 够 满足 各 种 复杂 的 决策 需求 。 
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数据 源 数据 仓库 服务 器 OLAP 服 务 器 前 端 工具 
图 4-1 数据 仓库 三 层 体系 结构 


4.1.4 数据 仓库 设计 模型 
1. 数据 模型 


数据 模型 是 数据 仓库 建设 的 基础 ,一 个 完整 灵活、 稳定 的 数据 模型 对 数据 仓库 项 目的 
成 功 有 如 下 重要 的 作用 。 

CD 数据 模型 是 整个 系统 建设 过 程 的 导航 图 。 

@ 有 利于 数据 的 整合 。 

@ 排除 数据 描述 的 不 一 致 性 。 

@ 可 以 消除 数据 仓库 中 的 元 余数 据 。 

数据 仓库 设计 的 三 级 数据 模型 如 下 。 

(1) 概念 模型 : 对 现实 世界 中 间 题 域内 的 事物 的 描述 ,不 是 对 软件 设计 的 描述 。 

(2) 逻辑 模型 : 对 概念 模型 中 的 主题 进行 细 化 ,定义 实体 与 实体 之 间 的 关系 ,以 及 实体 
的 属性 。 

(3) 物理 模型 : 依照 逻辑 模型 ,在 数据 库 中 建 表 .索引 等 。 为 了 满足 高 性 能 的 需求 , 数 
据 仓 库 可 以 增加 元 余 、 隐 藏 表 之 间 的 约束 等 反 第 三 范式 操作 。 


2. 粒度 


粒度 影响 数据 仓库 中 数据 量 的 大 小 ,粒度 是 一 个 设计 数据 仓库 的 重要 设计 问题 。 

粒度 是 指数 据 仓库 的 数据 单位 中 保存 数据 的 细 化 或 综合 程度 的 级 别 , 也 是 对 数据 仓库 
中 的 数据 综合 程度 高 低 的 一 个 度量 , 它 既 影响 数据 仓库 中 的 数据 量 的 多 少 , 也 影响 数据 仓库 
所 能 实现 的 查询 类 型 。 粒 度 越 小 ,细节 程度 越 高 ,综合 程度 越 低 ,查询 类 型 越 多 ;粒度 越 大 ， 
综合 程度 越 高 ,查询 的 效率 也 越 高 。 

在 数据 仓库 中 可 将 小 粒度 的 数据 存储 在 低速 存储 器 上 ,大 粒度 的 数据 存储 在 高 速 存储 


第 4 章 数据 仓库 与 OLAP 


器 上 。 


4.2 数据 仓库 设计 


数据 仓库 面向 主题 ,集成 .不 可 更 新 等 特点 决定 了 其 设计 方法 区 别 于 传统 的 联机 事务 处 
理 数据 库 的 设计 。 数 据 仓库 的 设计 是 由 数据 驱动 的 ,而 且 需 要 不 断 地 循环 和 反馈 ,使 数据 仓 
库 系统 不 断 地 完善 。 模 型 设计 原则 遵循 “ 自 顶 向 下 、 逐 步 细 化 ”原则 。 设 计 方 案 需 要 充分 考 
虑 系统 的 健壮 性 和 可 扩展 性 ,并 提前 做 好 相应 的 准备 工作 ,减少 因 后 续 的 修改 或 完善 系统 所 
造成 的 代价 和 开销 。 

数据 仓库 的 设计 大 体 上 分 为 以 下 三 个 步骤 : 数据 仓库 的 概念 模型 设计 、 数 据 仓库 的 退 
辑 模型 设计 ,数据 仓库 的 物理 模型 设计 。 


4.2.1 数据 仓库 的 概念 模型 设计 


概念 模型 设计 的 目的 是 对 数据 仓库 涉及 的 实体 和 客观 的 实体 进行 抽象 和 分 析 , 并 在 此 
基础 上 构建 一 个 相对 稳固 的 模型 。 在 设计 概念 模型 的 时 候 需要 充分 了 解 业 务 及 其 主要 关 
系 ,最 终 形成 一 个 能 够 充分 刻画 对 象 的 主题 和 关系 的 模型 。 概 念 模型 为 全 局 工作 服务 ,集成 
了 全 方位 的 数据 而 形成 一 个 统一 的 概念 蓝图 。 

概念 模型 需要 完成 的 工作 有 以 下 几 个 方面 。 

CD 界定 系统 边界 , 即 全 方位 了 解 任务 和 环境 ,充分 理解 需求 ,绘制 大 致 的 系统 边界 , 即 
数据 仓库 系统 设计 的 需求 分 析 。 

© 确定 主要 的 主题 域 ,完成 对 一 些 属性 、 主 题 域 公 共 码 以 及 主题 域 之 间 的 联系 的 描述 
工作 ,其 中 的 属性 能 够 清楚 、 充 分 地 代表 主题 。 

© 细 分 具体 内 容 及 确定 分 析 维 度 , 维 元 素 对 应 的 是 分 析 角 度 , 通 常 是 一 些 离 散 型 的 数 
据 ;度量 对 应 的 是 指标 ,实际 使 用 中 要 根据 指标 的 存储 和 查询 使 用 的 频 度 判 断 分 析 指 标 属于 
维 元 素 还 是 维 属 性 。 

概念 模型 的 设计 最 常用 的 策略 是 自 底 向 上 的 方法 , 即 自 项 向 下 地 进行 需求 分 析 , 然 后 再 
自 底 向 上 地 设计 概念 结构 , 它 主 要 有 以 下 几 个 步骤 。 

CD 抽象 数据 并 设计 局 部 视图 。 

© 集成 局 部 视图 ,得 到 全 局 的 概念 结构 。 

多 维 数据 的 表示 和 存储 是 数据 仓库 设计 的 核心 ,数据 仓库 的 多 维 数据 模型 是 简洁 、 面 向 
主题 的 ,这 样 可 以 更 加 直观 地 展示 数据 组 织 形式 ,同时 也 利于 数据 的 访问 。 多 维 数据 模型 主 
要 分 为 星 形 模型 雪花 模型 .事实 星座 模型 。 


1. 星 形 模型 


星 形 模型 是 比较 常用 的 模型 范式 ,是 一 种 使 用 关系 数据 库 实 现 多 维 分 析 空 间 的 模型 。 
主要 由 一 个 主题 事实 表 和 一 组 维 表 构成 。 事 实 表 规模 较 大 ,包含 大 量 的 数据 并 且 不 含 元 余 ; 
维 表 也 可 以 被 称 为 维度 表 , 是 事实 表 的 附属 表 , 每 一 维 都 会 有 一 个 附属 表 围绕 在 事实 表 周 
围 。 星 形 模型 的 命名 来 源 于 维 表 围绕 在 中 心 的 事实 表 的 表现 形式 。 

一 个 典型 的 星 形 模型 包括 一 个 大 型 的 事实 表 和 一 组 逻辑 上 围绕 这 个 事实 表 的 维 表 。 事 
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实 表 是 星 形 模型 的 核心 ,事实 表 由 主键 和 度量 数据 组 成 。 星 形 模型 中 各 维 表 主 键 的 组 合 构 
成 事实 表 的 主键 。 事 实 表 中 所 存放 的 数据 是 大 量 和 主题 密切 相关 的 、 用 户 最 关心 的 度量 数 
据 。 维 度 是 观察 事实 ,分析 主 题 的 角度 。 维 表 的 集合 是 构建 数据 仓库 数据 模式 的 关键 , 维 表 
通过 主键 与 事实 表 相连 。 用 户 依 赖 维 表 中 的 维度 属性 ,从 事实 表 中 获取 支持 决策 的 数据 。 

例 4.1 星 形 模 型 。 

有 一 个 商品 销售 中 心 ,每 天 都 有 不 同 的 销售 商 将 成 千 上 万 种 商品 销售 到 不 同 的 地 方 。 
现在 为 了 方便 中 心 管理 ,需要 建立 一 个 关于 产品 销售 的 数据 仓库 ,以 便 更 好 地 管理 与 统计 中 
心 的 经 营 状况 。 

使 用 星 形 模型 设计 产品 销售 ,包含 一 个 销售 事实 表 , 它 包含 四 个 维 的 码 。 每 个 维 只 用 一 
个 表 标 识 ,这 个 表 包 含 一 系列 的 属性 ,这 些 维 表 直接 与 中 心事 实 表 相关 联 ,如 图 4-2 所 示 。 




































































时 间 维 表 销售 事实 表 产品 维 表 
[ume o Emen 产品 代码 
年 | C nd 产品 名 称 
E [ m | [ rum | 
H | Wim d 产品 商标 
天 | _ 地 区 键 “| 
Lea 
销售 商 维 表 地 区 维 表 
销售 商 代码 地 区 代码 
销售 商 名 称 所 在 街道 
销售 丙 类 型 所 在 城市 
所 在 省 市 











图 4-2 产品 销售 数据 仓库 的 星 形 模型 


星 形 模型 的 优势 在 于 对 数据 的 维度 进行 了 一 定 程度 的 预 处 理 ,为 OLAP 提供 了 良好 的 
工作 条 件 ,提高 了 查询 性 能 。 不 足 之 处 是 建立 这 些 预 处 理 需要 较 长 时 间 ,而 且 数据 的 宛 余 
量 大 。 


2. 雪花 模型 


在 某 些 情况 下 , 星 形 模型 在 设计 完成 后 需要 对 维度 实体 进行 更 加 深入 、 详 细 的 分 析 , 这 
就 需要 设计 数据 仓库 的 雪花 模型 。 雪 花 模型 是 对 星 形 模型 的 扩展 、 延 伸 以 及 标准 化 ,同时 对 
星 形 模型 的 维 表 进行 规范 化 。 具 体 的 做 法 是 在 星 形 模型 的 维 表 的 基础 上 进一步 分 解 出 类 别 
维 表 。 

例 4.2 雪花 模型 。 

产品 销售 的 雪花 模型 和 星 形 模型 基本 相同 ,不 同 的 是 维 表 。 雪 花 模 型 在 星 形 模型 的 基 
础 上 对 维 表 进行 了 规范 化 ,产生 了 新 的 类 别 维 表 , 如 图 4-3 所 示 ,产品 维 表 包含 类 型 维 表 , 以 
对 产品 维 表 进 行 细 化 ;地 区 维 表 包含 城市 维 表 , 以 对 消费 地 点 按照 城市 类 别 进行 细 化 。 

雪花 模型 在 一 定 程度 上 可 以 节省 存储 空间 ,但 由 于 在 对 数据 仓库 的 不 同 表 的 联接 操作 
时 查询 速度 较 慢 ,因此 会 影响 查询 效率 ,造成 系统 性 能 的 下 降 。 在 实际 应 用 中 ,雪花 模型 并 
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z z 产品 代码 
ENERO 产品 名 称 
TE Ea a 产品 商标 
月 E 1 产品 类 型 
天 
L E 
| 类 型 维 表 
| [semi 
销售 商 维 表 SARN 
销售 商 代码 城市 维 表 地 区 维 表 
销售 商 名 称 城市 代码 地 区 代码 
销售 商 类 型 城市 名 称 所 在 街道 
所 在 省 市 城市 代码 
Bali 产品 销售 数据 仓库 的 雪花 模型 
没有 星 形 模型 使 用 得 那么 广泛 。 
3. 事实 星座 模型 


当 过 到 较为 复杂 的 应 用 时 ,可 能 需要 多 个 事实 表 共 享 一 个 维 表 , 此 时 星 形 模型 和 雪花 模 
型 无 法 满足 要 求 ,而 事实 星座 模型 则 可 以 很 好 地 解决 复杂 应 用 的 模型 设计 。 事 实 星座 模型 
可 以 视 为 星 形 模型 的 集合 , 故 也 被 称 为 星系 模型 。 

例 4.3 事实 星座 模型 。 

在 产品 销售 星 形 模型 建立 的 基础 上 添加 货运 事实 表 , 这 个 事实 表 和 销售 事实 表 共享 时 
间 维 表 和 地 区 维 表 , 如 图 4-4 所 示 。 



























































时 间 维 表 
时 间 键 S 
_ ; 产品 代码 
产品 名 称 
— Lum V O] nexa 
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MEM. A pore 
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L _ 地 区 键 sata a 
_ 销 售 商 维 表 /| quo d 起 失地 区 键 | 
销售 商 代码 | | 到 达 地 区 键 i 
销售 商 名 称 mr 
销售 商 类 型 




















图 4-4 产品 销售 数据 仓库 的 事实 星座 模型 
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4.2.2 数据 仓库 的 逻辑 模型 设计 


概念 模型 设计 完成 之 后 ,要 想 真 正 地 将 设计 的 模型 实现 出 来 需要 一 个 衔接 的 环节 ,一 方 
面 ,该 环节 可 以 将 需求 充分 地 体现 出 来 ; 另 一 方面 ,该 环节 可 以 为 实现 数据 仓库 起 到 指导 的 
作用 。 这 一 环节 就 是 数据 仓库 的 逻辑 模型 设计 。 数 据 仓库 的 逻辑 模型 设计 是 在 概念 模型 设 
计 中 确定 的 几 个 基本 的 主题 域 的 基础 上 进一步 地 完善 和 详细 化 设计 ,扩展 主题 域 。 数 据 仓 
库 的 逻辑 模型 把 业务 需求 用 规范 化 的 模型 和 关系 进行 表示 ,奠定 数据 仓库 的 物理 设计 基础 ， 
因此 ,数据 仓库 的 逻辑 模型 设计 是 数据 仓库 设计 的 核心 基础 。 逻 辑 模型 是 系统 分 析 设计 人 
员 对 数据 存储 的 观点 ,是 对 概念 数据 模型 进一步 的 分 解 和 细 化 。 

逻辑 模型 的 设计 是 数据 仓库 实施 中 最 重要 的 一 步 , 因 为 它 直接 反映 了 业务 部 门 的 实际 
需求 和 业务 规则 ,同时 对 物理 模型 设计 和 实现 具有 指导 作用 。 它 通过 实体 和 实体 之 间 的 关 
系 色 勒 出 整个 企业 的 数据 蓝图 和 规划 。 

逻辑 模型 设计 主要 有 以 下 几 个 步骤 。 

D 分 析 主 题 域 ,确定 要 装载 到 数据 仓库 的 主题 。 

© 粒度 层次 划分 ,通过 估计 数据 量 和 所 需 的 存储 设备 确定 粒度 划分 方案 。 

© 确定 数据 分 隔 策略 ,将 逻辑 上 整体 的 数据 分 割 成 较 小 的 .可 以 独立 管理 的 物理 单元 
进行 存储 。 

@ 定义 关系 模式 ,概念 设计 阶段 时 基本 的 主题 已 经 确定 ,逻辑 模型 设计 阶段 要 将 主题 
划分 成 多 个 表 以 及 确定 表 的 结构 。 

逻辑 模型 设计 的 关键 是 细 化 主题 划分 并 建立 维度 模型 ,主要 的 工作 是 进行 事实 表 模 型 
设计 和 维 表 模 型 设计 。 


1. 事实 表 模 型 设计 


事实 表 的 设计 一 般 是 对 概念 模型 中 的 几 个 主题 域 进行 进一步 的 分 析 。 事 实 表 一 般 包 含 
两 个 部 分 : 一 部 分 是 键 部 分 ,这 部 分 通常 由 事实 表 的 主键 和 维 表 的 外 键 组 成 ; 另 一 部 分 是 所 
需 度量 的 数值 指标 ,这 些 指 标 具有 数值 化 和 可 加 等 特性 。 

例 4.4 事实 表 模型 设计 。 

对 例 4. 1 产品 销售 数据 仓库 的 星 形 模型 进行 事实 表 模 型 设计 ,需要 把 主题 .公共 键 、 属 
性 组 列 出 来 进行 分 析 , 结 果 如 表 4-1 所 示 。 


表 4-1 产品 销售 部 分 主题 的 详细 描述 





主题 名 公共 键 属性 组 
固有 信息 : 产品 代码 、 名 称 、 类 型 等 
产品 产品 代码 采购 信息 : 产品 代码 ,供应 商 、 采 购 日 期 等 


库存 信息 : 产品 代码 、 库 房 号 、 库 存量 、 入 库 时 间 等 





固有 信息 : 销售 代码 等 
销售 信息 : 销售 代码 ,销售 价 .销售 时 间 等 








销售 销售 代码 


从 表 4-1 中 可 看 出 , 共 分 析出 两 个 主题 ,分 别 是 产品 主题 和 销售 主题 。 此 外 ,各 个 主题 
的 公共 键 以 及 属性 组 也 详细 地 在 表 中 列 出 。 
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度量 是 事件 或 者 动作 的 事实 记录 ,如 产品 销售 可 能 的 度量 有 销售 总 额 \ 销 售 金额 ,平均 
销售 额 等 。 度 量变 量 可 以 是 连续 的 ,也 可 以 是 离散 的 。 
事实 表 常 用 在 星 形 模型 .雪花 模型 和 事实 星座 模型 之 中 ,具有 以 ” 表 42 销售 事实 表 
下 特征 。 — 


(D 除 度量 变量 外 ,其 余 都 是 维 表 或 其 他 表 的 关系 。 s ug 
@ 字段 数 和 与 事实 相关 的 维度 呈正 比例 。 产品 代码 
@ 记录 量 很 大 。 销售 商 代码 
通过 分 析 表 4-1, 得 到 相应 的 事实 表 如 表 4-2 所 示 。 SS Q 


2. 维 表 模 型 设计 


在 建立 事实 表 的 基础 上 要 想 进 一 步 分 析 , 还 需要 有 维 表 的 支持 。 维 表 的 作用 就 是 为 用 
户 提供 有 关 主 题 的 更 加 详细 和 具体 的 信息 。 要 设计 出 维 表 同 样 需 要 进行 维度 详细 信息 的 分 
析 , 如 可 以 按照 时 间 维 度 进行 分 析 , 也 可 以 按照 产品 维度 进行 分 析 , 还 可 以 按照 客户 维度 进 
行 分 析 , 这 样 可 以 从 多 个 不 同 的 角度 进行 分 析 , 使 获得 的 决策 更 加 完善 。 表 4-3 是 例 4. 1 中 
维 表 的 模型 设计 。 


表 4-3 产品 销售 数据 仓库 的 维度 模型 





时 间 维 时 间 键 、 季 度 、 年 .月 、 日 

产品 维 产品 代码 ,产品 名 称 、 产 品 商标 、 产 品类 型 
地 区 维 地 区 代码 、 所 在 街道 、 所 在 城市 、 所 在 省 市 
销售 商 维 销售 商 代码 ,销售 商 名 称 、 销 售 商 类 型 


可 以 构建 出 产品 销售 情况 的 各 个 维度 表 , 进 而 和 事实 表 相 结 合 构成 逻辑 模型 ,如 图 4-5 
所 示 。 










































































时 间 维 表 产品 维 表 
时 间 键 销售 时 间 产品 代码 
年 产品 名 称 
季度 产品 类 型 
月 产品 商标 

天 

销售 商 

销售 商 维 表 TME 地 区 维 表 
销售 商 代码 地 区 代码 
销售 商 名 称 所 在 街道 
销售 商 类 型 所 在 城市 
所 在 省 市 














图 4-5 产品 销售 事实 表 的 逻辑 模型 
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4.2.3 数据 仓库 的 物理 模型 设计 


完成 数据 仓库 的 概念 模型 和 届 辑 模型 的 设计 之 后 ,下 一 步 就 是 进行 数据 仓库 物理 模型 
的 设计 。 这 个 阶段 需要 在 充分 了 解数 据 和 硬件 配置 的 基础 上 确定 数据 的 存储 结构 .索引 策 
略 ,数据 存 放 位 置 等 信息 。 


1. 确定 数据 的 存储 结构 


数据 仓库 的 存储 结构 设计 要 充分 考虑 所 选择 的 存储 结构 是 否 适合 数据 的 需要 ,还 要 考 
虑 存储 时 间 和 存储 空间 的 利用 率 。 表 4-4 展示 了 销售 事实 表 存 储 结构 关系 模型 。 


表 4-4 销售 事实 表 存 储 结构 关系 模型 





字段 名 说 明 描述 主键 /外 键 数据 类 型 数据 类 型 说 明 
TimeID 时 间 键 外 键 ,同时 也 构成 了 主键 Integer 整 型 
EquipmentID 产品 键 外 键 ,同时 也 构成 了 主键 Integer 整 型 
CustomerID 销售 商 键 外 键 ,同时 也 构成 了 主键 Integer 整 型 
LocationID 地 区 键 外 键 ,同时 也 构成 了 主键 Integer 整 型 
Amount 销售 额 — Money 正 整数 





2. 构建 索引 策略 


由 于 数据 仓库 是 只 读 环 境 , 大 多 数 情况 下 进行 的 是 查询 操作 , 当 数 据 量 非常 大 的 时 候 ， 
查询 效率 会 变 得 低下 ,通过 索引 的 构建 可 以 提高 查询 的 效率 和 数据 库 的 性 能 。 常 见 的 构建 
索引 的 方法 有 B 树 索引 ,位 图 索引 和 簇 索引。 

构建 索引 一 般 的 规则 是 索引 的 个 数 和 表 的 大 小 呈 反 比 。 在 建立 索引 时 需要 注意 以 下 几 
个 通用 的 原则 。 

CD 索引 和 加 载 : 当 存 在 大 量 的 索引 时 ,向 数据 仓库 中 加 载 数据 的 速度 会 非常 慢 , 可 以 
在 加 载 前 先 删除 索引 ,完成 后 再 建立 索引 。 

O 建立 大 表 索 引 : 当 表 太 大 时 不 能 建立 太 多 索引 ,如 果 必 须 建立 多 个 索引 , 则 建议 将 
大 表 分 成 小 表 后 再 建立 多 个 索引 。 

O 只 读 索 引 : 在 数据 检索 过 程 中 ,索引 记录 是 首先 读 人 的 ,然后 再 读 人 对 应 的 数据 。 
也 就 是 说 在 检索 过 程 中 ,索引 是 只 能 被 读 取 而 不 能 被 修改 的 。 

CD 选择 索引 的 列 : 分 析 最 常用 的 查询 , 哪 几 列 经 常用 来 限定 查询 ,那么 这 几 列 就 是 建 
立 索 引 的 候选 列 。 

O 分 阶段 的 方法 : 一 开始 只 为 每 个 表 的 主键 和 外 键 建立 索引 ,然后 监视 系统 性 能 , 特 
别 是 长 时 间 和 运行 的 查询 ,要 根据 监视 结果 再 增加 索引 。 


3. 数据 存放 位 置 


相同 主题 的 数据 不 需要 存放 在 相同 的 存储 介质 ,根据 数据 的 使 用 频率 和 数据 的 重要 程 
度 以 及 时 间 响 应 要 求 ,将 不 同 数 据 存放 在 不 同 的 存储 设备 上 。 例 如 ,可 以 将 对 响应 时 间 要 求 
较 高 的 数据 存放 在 高 速 存储 设备 上 。 此 外 ,还 要 考虑 是 否 进行 元 余 存储 、 是 否 进行 合并 、 是 
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否 建 立 数据 序列 等 。 


4.3 数据 仓库 实现 


在 完成 数据 仓库 模型 设计 后 ,可 以 创建 数据 仓库 。 数 据 仓 库 是 一 个 过 程 而 不 是 一 个 项 
目 。 数 据 仓 库 系统 是 一 个 信息 提供 平台 ,从 业务 处 理 系 统 获得 数据 ,并 主要 以 星 形 模型 和 雪 
花 模 型 进行 数据 组 织 ,为 用 户 提供 各 种 手段 以 从 数据 中 获取 信息 和 知识 。 它 不 是 一 个 静态 
的 概念 ,只 有 及 时 将 信息 交 给 需要 的 使 用 者 ,信息 才能 发 挥 作用 , 才 具 有 意义 ,而 把 信息 加 以 
归纳 整理 并 及 时 提供 给 用 户 是 数据 仓库 的 根本 任务 。 因 此 ,数据 仓库 的 建设 既是 一 个 工程 ， 
也 是 一 个 过 程 。 

本 节 将 给 出 数据 仓库 的 具体 实现 方法 。 数 据 仓库 的 实现 具体 包括 以 下 几 个 步 又 。 

(D 创建 Analysis Services 项 目 。 

@ 定义 数据 源 。 

O 定义 数据 视图 。 

D 定义 多 维 数据 集 。 

© 部 署 Analysis Services 项 目 。 

需要 特别 说 明 的 是 ,本 实例 的 实现 使 用 的 是 SQL Server 2005, 为 了 方便 大 家 理解 与 实 
现 , 本 实例 的 数据 源 采用 的 是 SQL Server 2005 自 带 的 数据 库 实例 AdventureWorks。 


1. 创建 Analysis Services 项 目 


单 击 开始 菜单 ,从 中 找到 SQL Server Business Intelligence Development Studio 应 用 程 
序 , 打 开 后 出 现 如 图 4-6 所 示 的 Microsoft Visual Studio 2005 开发 环境 。 
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图 4-6 Microsoft Visual Studio 2005 开发 环境 
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在 Visual Studio 上 部 菜单 栏 中 , 单 击 左边 的 “文件 ”按钮 ,在 出 现 的 列表 中 单 击 “ 新 建 ” 
按钮 ,选择 “项 目 ” 选 项 ,弹出 的 “新 建 项 目 ” 对 话 框 。 在 项 目 类 型 中 选择 “商业 智能 项 目 ”, 然 
后 在 模板 中 选择 “Analysis Services 项 目 ", 对 话 框 底部 的 默认 项 目 名 称 、 默 认 项 目 位 置 、 默 
认 解 决 方案 名 称 可 以 根据 需要 进行 修改 ,本 实例 将 默认 项 目 名 称 改 为 Analysis Services 
Test, 如 图 4-7 所 示 。 
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图 4-7 “新 建 项 目 "选择 页 面 


单 击 “ 确 定 ” 按 钮 。 至 此 ,已 经 在 名 为 Analysis Services Test 的 新 解决 方案 中 基于 
Analysis Services 项 目 模板 成 功 创建 了 名 为 Analysis Services Test 的 项 目 。 图 4-8 显示 的 
是 在 Visual Studio 开发 环境 中 的 Analysis Services Test 项 目 。 


2. 定义 数据 源 


创建 项 目 后 ,通常 通过 定义 此 项 目 将 要 使 用 的 一 个 或 多 个 数据 源 开始 使 用 此 项 目 。 接 
下 来 本 实例 将 把 AdventureWorks 实例 数据 库 定义 为 Analysis Services Test 项 目的 数 
据 源 。 

(D 在 解决 方案 资源 管理 器 中 , 右 击 “数据 源 ” 按 钮 ,然后 选择 “新 建 数 据 源 ”, 随 后 出 现 
“欢迎 使 用 数据 源 向 导 ” 页 面 。 

© 在 “欢迎 使 用 数据 源 向 导 ” 页 面 中 单 击 “ 下 一 步 ” 按 钮 ,出 现 “ 选 择 如 何 定义 连接 ”页 
面 。 在 该 页 面 中 可 以 基于 现 有 连接 或 新 连接 创建 数据 源 ,也 可 以 基于 另 一 个 对 象 创建 数据 
源 。 本 实例 将 基于 新 连接 创建 数据 源 ,所 以 在 此 页 面 中 选择 “基于 现 有 连接 或 新 连接 创建 数 
据 源 ”, 然 后 单 击 "新建" 按钮 ,出 现 如 图 4-9 所 示 的 连接 管理 器 页 面 。 

O 在 “连接 管理 器 "页 面 中 可 以 定义 数据 源 的 连接 属性 。 连 接管 理 器 是 将 在 运行 时 使 
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图 4-8 Visual Studio 开发 环境 中 的 Analysis Services Test 项 目 
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图 4-9 “连接 管理 器 "页面 


用 的 连接 的 逻辑 表示 形式 。 在 “提供 程序 ”列表 中 选择 “本 机 OLE DB\SQL Native Client” 


E 


数据 分 析 与 数据 挖掘 


(一 般 是 默认 )。 在 “服务 器 名 ”文本 框 中 选择 本 机 服务 器 的 名 称 ,选中 “使 用 Windows 身份 
验证 ”, 然 后 在 “选择 或 输入 一 个 数据 库 名 ”列表 中 选择 AdventureWorks。 图 4-10 是 目前 为 
止 已 经 定义 设置 的 “连接 管理 器 ”。 
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图 4-10 已 经 定义 设置 的 “链接 管理 器 ” 


CD 单 击 “ 确 定 ” 按 钮 ,然后 单 击 “ 下 一 步 " 按 钮 将 会 显示 “模拟 信息 "页面, 在 该 页 面 中 可 
以 定义 Analysis Services 用 于 连接 数据 源 的 安全 凭据 。 选 择 “ 使 用 服务 账户 ”, 然 后 单 击 “ 下 
一 步 ? 按 钮 ,出 现 如 图 4-11 所 示 的 “完成 向 导 ” 页 面 。 








Provider=SQLNCLL1:Data Source=WIN-36DMPTT58pLintegrated Security- SSPLnitial 
Catalog=AdventureWorks 














图 4-11 “完成 向 导 ” 页 面 
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O 单 击 “ 完 成 "按钮 ,创建 名 为 Adventure Works 的 数据 源 , 图 4-12 为 解决 方案 资源 管 
理 器 数据 源 文件 夹 中 所 示 的 Adventure Works 数据 源 。 
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图 4-12 解决 方案 资源 管理 器 中 的 数据 源 


3. 定义 数据 源 视图 


定义 数据 源 后 ,下 一 步 通常 是 定义 项 目的 数据 源 视图 。 数 据 源 视图 是 一 个 元 数据 的 单 
一 统一 视图 ,该 元 数据 来 自 指定 的 表 以 及 数据 源 在 项 目 中 定义 的 视图 。 通 过 在 数据 源 视图 
中 存储 元 数据 ,可 以 在 开发 过 程 中 使 用 元 数据 ,而 无 须 打 开 与 任何 基础 数据 源 的 连接 。 

(D 在 解决 方案 资源 管理 器 中 , 右 击 “数据 源 视图 ”文件 夹 ,选择 “新 建 数据 源 视图 ”, 打 开 
“数据 源 视图 向 导 ”。 在 “欢迎 使 用 数据 源 视图 向 导 ” 页 单 击 “ 下 一 步 ” 按 钮 后 出 现 “ 选 择 数据 
Wi", 

© 在 “选择 数据 源 ” 页 ,此 时 在 “关系 数据 源 " 下 显示 的 是 建 好 的 Adventure Works 数据 
源 。 单 击 “ 下 一 步 ”按钮 后 显示 “选择 表 和 视图 ”页 。 

© 在 “选择 表 和 视图 ”页 ,可 以 从 选 定 的 数据 源 提供 的 对 象 列表 中 选择 表 和 视图 。 在 
“可 用 对 象 " 列 表 中 选择 以 下 列表 。 

* Sales. SalesOrderHeader 


* Sales. SalesPerson 


665 数据 分 析 与 数据 控 报 


* Sales. Customer 

* Sales. SalesTerritory 

* Person. Address 

* Purchasing. ShipMethod 
CD B h“ H , 38 ú rp Ro 5 8n $0" (28 BOUE S" IKP anf 4-13 所 示 。 
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从 要 包 全 在 数据 源 视 图 中 的 关系 数据 库 中 运 择 对 条- 2 
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图 4-13 添加 了 “包含 的 对 象 " 后 的 “选择 表 和 视图 ”页 


© 单 击 “ 下 一 步 ” 按 钮 ,进入 如 图 4-14 所 示 的 “完成 向 导 ” 页 ,然后 单 击 “ 完 成 ”按钮 即 可 
完成 数据 源 视图 的 创建 。 图 4-15 所 示 是 在 解决 方案 资源 管理 器 中 的 “数据 源 视图 "文件 夹 
下 的 名 为 "Adventure Works” 的 数据 源 视图 ,同时 ,数据 源 视图 的 内 容 也 将 在 图 4-15 中 的 
Business Intelligence Development Studio 的 数据 源 视 图 设计 器 中 显示 。 
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图 4-14 数据 源 视图 “完成 向 导 ” 页 
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4. 定义 多 维 数据 集 


(D 在 解决 方案 资源 管理 器 中 右 击 “多 维 数据 集 ” 文 件 夹 , 选 择 “ 新 建 多 维 数据 集 ” 进 入 
“欢迎 使 用 多 维 数据 集 向 导 ” 页 面 。 

@ 单 击 “ 下 一 步 ”按钮 进入 “选择 生成 方法 ”页 。 在 此 页 中 选中 “使 用 数据 源 生成 多 维 数 
据 集 ”和 “自动 生成 ”选项 ,然后 单 击 “ 下 一 步 " 按 钮 。 

© 在 “选择 数据 源 视图 ”页 的 “可 用 数据 源 视图 ”列表 中 选中 “Adventure Works” 数 据 源 
视图 ,然后 单 击 “ 下 一 步 " 按 钮 ,向 导 会 标识 事实 数据 表 和 维度 表 。 在 标识 结束 后 单 击 “ 下 一 
步 "按钮 。 

CD 在 “标识 事实 数据 表 和 维度 表 ” 页 面 中 ,将 显示 该 向 导 所 标识 的 事实 数据 表 和 维度 
表 。 如 图 4-16 所 示 , 对 于 “Analysis Services Test” 项 目 ,该 向 导 标 识 了 2 个 事实 表 和 6 个 维 
度 表 。 其 中 ,Sales. SalesPerson 既是 事实 表 , 又 是 维度 表 。 

C) 单 击 * 下 一 步 "按钮 进入 “选择 度量 值 " 页 ,其 中 显示 了 该 向 导 所 选择 的 度量 值 。 该 向 
导 选 择 它 标识 为 事实 数据 表 的 表 中 的 各 数值 数据 类 型 列 作为 度量 值 。 本 实例 默认 全 部 选 
中 ,如 图 4-17 所 示 。 

© 单 击 “ 下 一 步 ” 按 钮 ,由 于 之 前 在 该 向 导 中 选择 了 “自动 生成 ”选项 ,所 以 该 向 导 将 扫 
描 层次 结构 。 该 向 导 对 定义 为 维度 表 的 表 中 的 各 列 进行 采样 ,以 确定 列 之 间 是 否 存 在 层次 
结构 关系 。 层 次 结构 关系 是 多 对 一 关系 ,如 “商品 ”与 “商品 类 型 "之 间 的 关系 。 

@ 检测 层次 结构 完成 后 , 单 击 “ 下 一 步 ” 按 钮 进入 “查看 新 建 维度 ”页 。 该 页 将 通过 树 形 
结构 显示 检测 到 的 6 个 维度 的 层次 结构 和 属性 。 

单 击 “ 下 一 步 ” 按 钮 进入 “完成 向 导 ” 页 面 。 单 击 此 页 面 中 的 “完成 ”按钮 即 可 完成 多 
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lg SalesCustomer 
@ Sales.SalesOrderHeader 


I9 Sales.SalesPerson 
lg Sales.SalesTerritory 
ld Purchasing.ShipMethod 
lg SalesCurrencyRate 
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可 用 度量 值 (A): 

度量 值 组 /度量 值 源 列 q 
[ui] Sales Order Header 

wi Revision Number Sales SalesOrderHeader.RevisionNumber 
wd Status Sales SalesOrderHeader.Status. 

IV] ul Contact ID. Sales SalesOrderHeader.ContactlD 

«i Credit Card ID Sales SalesOrderHeader.CreditCardID. 

wi Sub Total Sales SalesOrderHeader.SubTotal 

«i Tax Amt Sales SalesOrderHeader.TaxAmt 

wi Freight Sales SalesOrderHeader.Freight 

wi Total Due. Sales SalesOrderHeader.TotalDue 

wi Sales Order Header 计数 Sales SalesOrderHeader 

[i Sales Person 

wi Sales Quota Sales SalesPerson.SalesQuota 

ui Bonus Sales SalesPerson.Bonus 

wi Commission Pct Sales SalesPerson.CommissionPct 
LFI „si Sales YTD 



































图 4-17 “选择 度量 值 ”页 面 


维 数据 集 的 建立 。 可 以 在 图 4-18 所 示 的 解决 方案 资源 管理 器 中 查看 多 维 数据 集 以 及 维度 
信息 ,并 在 “数据 源 视图 设计 器 ”中 将 显示 多 维 数据 集中 的 维度 表 以 及 事实 数据 表 。 
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图 4-18 数据 源 视 图 设计 器 中 的 多 维 数据 集 信息 


5. 部 署 Analysis Services 项 目 


若 要 查看 位 于 Analysis Services Test 项 目的 Analysis Services Test 多 维 数据 集中 的 
对 象 的 多 维 数据 集 和 多 维 数据 ,必须 将 项 目 部 署 到 Analysis Services 的 指定 实例 。 本 实例 
将 会 将 Analysis Services Test 项 目 部 署 到 本 地 实例 中 。 

CD 布 击 解决 方案 资源 管理 器 中 的 Analysis Services Test, 在 出 现 的 列表 中 选择 “ 属 
性 ”, 然 后 在 Analysis Services Test 属性 页 中 的 配置 属性 层次 结构 中 单 击 “ 部 署 " 按 钮 ,将 会 
在 右 侧 显示 部 署 属性 。 默 认 情 况 下 ,Analysis Services 项 目 模板 将 所 有 项 目 增 量 部 署 到 本 
地 计算 机 中 的 Analysis Services 实例 ,创建 一 个 与 此 项 目 同名 的 Analysis Services 数据 库 ， 
并 在 部 署 后 使 用 默认 处 理 选项 处 理 这 些 对 象 。 图 4-19 为 “Analysis Services Test 属性 页 ” 
对 话 框 。 

© 本 实例 不 对 服务 器 的 属性 进行 修改 , 单 击 * 取 消 ” 按 钮 。 右 击 解决 方案 资源 管理 
器 中 的 Analysis Services Test, 在 出 现 的 列表 中 选择 “部 署 ”, 将 会 在 “部 署 进度 "中 看 到 
项 目的 部 署 进度 ,在 “状态 ”中 看 到 项 目的 部 署 状态 。 如 果 部 署 发 生 错误 , 则 将 会 在 “ 错 
误 列表 ”中 看 到 错误 信息 。 如 图 4-20 所 示 ,本 实例 中 的 “Analysis Services Test” 项 目 部 
署 成 功 。 
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图 4-19 "Analysis Services Test 属性 页 ”对 话 框 
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图 4-20 ”部署 成 功 的 “Analysis Services Test" Ii A 


4.4 联机 分 析 处 理 


数据 仓库 的 建立 是 为 了 对 数据 仓库 中 的 数据 进行 查询 分 析 ,为 管理 者 提供 准确 的 决策 
分 析 。 但 数据 仓库 仅仅 是 数据 的 集合 ,并 不 能 完成 对 数据 的 灵活 多 样 的 查询 分 析 , 因 此 , 联 
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机 分 析 处 理 (OLAP) 技 术 应 运 而 生 。OLAP 可 以 根据 不 同 分 析 人 员 的 不 同 需求 ,对 数据 仓 
库 中 的 数据 进行 复杂 的 查询 处 理 , 从 而 获得 分 析 人 员 所 需 的 信息 。 通 过 组 织 和 汇总 数据 ,为 
高 效 分 析 查 询 创 建 多 维 数据 集 ,OLAP 为 数据 仓库 数据 提供 了 一 种 多 维 表现 方式 。 数 据 仓 
库 和 OLAP 是 密 不 可 分 的 。 


4.4.1 OLAP 简介 


20 世纪 60 年 代 , 关 系数 据 库 之 父 E. F. Codd 提出 了 关系 模型 ,促进 了 联机 事务 处 理 
(OLTP) 的 发 展 。1993 年 ,E.F. Codd 又 提出 了 联机 分 析 处 理 的 概念 ,认为 联机 事务 处 理 已 
不 能 满足 最 终 用 户 对 数据 的 分 析 需 要 ,SQL 对 大 型 数据 库 进行 的 简单 查询 也 不 能 满足 最 终 
用 户 分 析 的 要 求 。 用 户 的 决策 分 析 需 要 对 关系 数据 库 进行 大 量 计算 才能 得 到 结果 ,而 SQL 
查询 的 结果 并 不 能 满足 决策 者 提出 的 需求 。 因 此 ,E. F. Codd 提出 了 多 维 数据 库 和 多 维 分 
析 的 概念 , 即 OLAP。 

OLAP 委员 会 对 OLAP 的 定义 为 OLAP 是 使 分 析 人 员 ,管理 人 员 或 执行 人 员 能 够 从 多 
种 角度 对 从 原始 数据 中 转化 出 来 的 、 能 够 真正 为 用 户 所 理解 的 ,并 真实 反映 企业 多 维特 性 的 
信息 进行 快速 ,一致 ,交互 的 存 取 ,从 而 获得 对 数据 更 深入 的 了 解 的 一 类 软件 技术 。 


1. OLAP 特点 


针对 多 维 数据 分 析 的 需求 ,OLAP 具有 以 下 特点 。 

(1) 快速 性 

用 户 对 OLAP 的 快速 反应 能 力 一 般 具有 较 高 的 要 求 ,系统 能 在 秒 级 以 内 对 用 户 的 大 部 
分 分 析 要 求 作出 响应 。 如 果 最 终 用 户 在 秒 级 内 没有 得 到 系统 响应 , 则 他 们 会 失去 耐心 ,因此 
可 能 导致 失去 分 析 主线 索 ,影响 分 析 质 量 。 对 于 大 量 的 数据 分 析 , 要 达到 这 个 速度 并 不 容 
易 , 因 此 需要 一 些 技术 上 的 支持 ,如 专门 的 数据 存储 格式 .大量 的 事先 运算 、 特 别 的 硬件 设 
计 等 。 

(2) 可 分 析 性 

OLAP 系统 能 处 理 与 应 用 有 关 的 任何 逻辑 分 析 和 统计 分 析 。OLAP 系统 已 经 预先 提 
供 了 很 多 统计 分 析 的 功能 ,但 仍 支持 OLAP 的 最 终 用 户 定义 新 的 专门 计算 ,将 其 作为 分 析 
的 一 部 分 ,并 以 用 户 理想 的 方式 给 出 报告 。 用 户 既 可 以 在 OLAP 平台 上 进行 数据 分 析 , 也 
可 以 连接 到 其 他 外 部 分 析 工 具 上 ,如 时 间 序 列 分 析 工 具 、 成 本 分 配 工具 ,意外 报警 、 数 据 开 

(3) 多 维 性 

多 维 性 是 OLAP 的 关键 属性 。 系 统 必须 提供 数据 分 析 的 多 维 视图 和 分 析 , 包 括 对 层次 
维和 多 重 层次 维 的 完全 支持 。 事 实 上 ,多 维 分 析 是 分 析 企 业 数 据 最 有 效 的 方法 ,是 OLAP 
的 灵魂 。 


2. OLAP 体系 结构 


数据 仓库 与 OLAP 的 关系 是 互补 的 ,现代 OLAP 系统 一 般 以 数据 仓库 为 基础 , 即 从 数 
据 仓 库 中 抽取 详细 数据 的 一 个 子 集 并 经 过 必要 的 聚集 存储 到 OLAP 存储 器 中 , 供 前 端 分 析 
工具 读 取 。 典 型 的 OLAP 系统 体系 结构 如 图 4-21 所 示 。 
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数据 库 OLAP 存 储 器 前 端 工具 
图 4-21 OLAP 体系 结构 


3. OLAP 实现 类 型 


按照 数据 存储 格式 , OLAP 实现 可 以 分 为 关系 OLAP (ROLAP)、 多 维 OLAP 
(MOLAP) 和 混合 OLAP(HOALP)。 

(1) ROLAP 

ROLAP(Relational OLAP) 表 示 基 于 关系 数据 库 的 OLAP 实现 。 以 关系 数据 库 为 核 
心 , 以 关系 型 结构 进行 多 维 数据 的 表示 和 存储 。ROLAP 将 多 维 数据 库 的 多 维 结构 划分 为 
两 类 表 : 一 类 是 事实 表 , 用 来 存储 数据 和 维 关键 字 ; 另 一 类 是 维 表 , 即 对 每 个 维 至 少 使 用 一 
个 表 存 放 维 的 层次 .成 员 类 别 等 维 的 描述 信息 。 事 实 表 和 维 表 通 过 主 关键 字 和 外 关键 字 联 
系 在 一 起 ,形成 了 星 形 模型 。 对 于 层次 复杂 的 维 ,为 避免 元 余数 据 占用 过 大 的 存储 空间 ,可 
以 使 用 多 个 表 描 述 , 这 种 星 形 模 型 的 扩展 即 为 雪花 模型 。ROLAP 的 特点 是 将 细节 数据 保 
留 在 关系 型 数据 库 的 事实 表 中 ,聚合 后 的 数据 也 保存 在 关系 型 的 数据 库 中 。 这 种 方式 的 查 
询 效率 最 低 ,不 推荐 使 用 。 

(2) MOLAP 

MOLAP(Multidimensional OLAP) 表 示 基 于 多 维 数据 组 织 的 OLAP 实现 。 以 多 维 数 
据 组 织 方式 为 核心 ,也 就 是 说 ,MOLAP 使 用 多 维 数组 存储 数据 。 多 维 数据 在 存储 中 将 形成 
“SEJT IE (Cube) ”的 结构 ,对 “立方 体 ” 的 “旋转 ”“ 切 块 “* 切 片 ” 是 产生 多 维 数据 报表 的 主要 技 
术 。MOLAP 的 特点 是 将 细节 数据 和 聚合 后 的 数据 均 保存 在 立方 体 中 ,所 以 是 以 空间 换 效 
率 , 查 询 时 效率 高 ,但 生成 立方 体 时 需要 大 量 的 时 间 和 空间 。 

(3) HOLAP 

HOLAP(Hybrid OLAP) 表 示 基 于 混合 数据 组 织 的 OLAP 实现 。 如 低层 是 关系 型 的 ， 
高 层 是 多 维 矩 阵型 的 。 这 种 方式 具有 更 好 的 灵活 性 。HOLAP 的 特点 是 将 细节 数据 保留 在 
关系 型 数据 库 的 事实 表 中 ,但 是 聚合 后 的 数据 保存 在 立方 体 中 ,聚合 时 需要 比 ROLAP 更 多 
的 时 间 ,查询 效率 比 ROLAP 高 ,但 低 于 MOLAP。 


4.4.2 OLAP 与 OLTP 的 关系 


OLAP ffl OLTP 的 主要 区 别 如 下 。 

OLAP 面向 的 是 市 场 , 主 要 供 企业 的 决策 人 员 和 中 高 层 管理 人 员 使 用 ,用 于 数据 分 析 。 
而 OLTP 是 面向 顾客 的 ,主要 供 操作 人 员 和 底层 管理 人 员 使 用 ,用 于 事务 和 查询 处 理 。 

OLAP 系统 管理 大 量 历史 数据 ,提供 汇总 和 聚集 机 制 , 并 在 不 同 的 粒度 级 别 上 存储 和 
管理 信息 。 这 些 特 点 使 数据 更 容易 用 于 决策 分 析 。OLTP 系统 则 仅 管理 当前 数据 ,通常 情 
况 下 ,这 种 数据 太 琐碎 ,难以 用 于 决策 。 
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OLAP 系统 处 理 的 是 来 自 不 同 组 织 的 信息 ,是 由 多 个 数据 存储 集成 的 信息 。 由 于 数据 
量 巨 大 ,OLAP 数据 存放 在 多 个 存储 介质 上 ,不 过 ,对 OLAP 系统 的 访问 大 部 分 是 只 读 操 
作 , 尽 管 许多 可 能 是 复杂 的 查询 。 相 比 之 下 ,OLTP 系统 则 主要 关注 企业 或 部 门 内 部 的 当前 
数据 ,而 不 涉及 历史 数据 或 不 同 组 织 的 数据 。 

OLAP 与 OLTP 的 区 别 如 表 4-5 所 示 。 





表 4-5 OLAP 5 OLTP 的 对 比 











比较 项 OLAP OLTP 
特性 信息 处 理 操作 处 理 

用 户 面向 决策 人 员 面向 操作 人 员 
功能 支持 管理 需要 支持 日 常 操作 
面向 面向 数据 分 析 面向 应 用 
驱动 分 析 驱 动 事务 驱动 
数据 量 一 次 处 理 的 数据 量 大 一 次 处 理 的 数据 量 小 
访问 不 可 更 新 ,但 周期 性 刷新 可 更 新 

数据 历史 数据 当前 值 数据 
汇总 综合 性 和 提炼 性 数据 细节 性 数据 
视图 导出 数据 原始 数据 


由 表 4-5 可 见 ,OLAP 和 OLTP 是 两 类 不 同 的 应 用 。OLTP 是 对 数据 库 数据 的 联机 查 
询 和 增 、 删 . 改 操作 ,以 数据 库 为 基础 ;而 OLAP 更 适合 以 数据 仓库 为 基础 的 数据 分 析 处 理 。 
OLAP 中 历史 的 ,导出 的 及 经 过 综合 提炼 的 数据 主要 来 自 OLTP 所 依赖 的 底层 数据 库 。 
OLAP 数据 较 之 OLTP 数据 要 进行 更 多 的 数据 维护 或 预 处 理 的 操作 。 例 如 ,对 一 些 统计 数 
据 首先 进行 预 综 合 处 理 ,建立 不 同 粒度 .不 同 级 别 的 统计 数据 ,从 而 使 其 能 满足 快速 数据 分 
析 和 查询 的 要 求 。 除 了 数据 和 处 理 上 的 不 同 之 外 ,OLAP 前 端 产品 的 界面 风格 和 数据 访问 
方式 也 与 OLTP 不 同 。OLAP 大 多 采用 非 数据 处 理 专业 人 员 容 易 理 解 的 方式 (如 多 维 报 
表 、 统 计 图 形 等 ) ,查询 和 数据 显示 直观 灵活 ,用户 可 以 方便 地 进行 逐 层 细 化 及 切片 . 切 块 、 数 
据 旋转 等 操作 ;而 OLTP 大 多 使 用 操作 人 员 常 用 的 固定 表格 ,查询 和 数据 显示 也 比较 固定 、 
4.4.3 典型 的 OLAP 操作 


OLAP 基于 多 维 数据 模型 ,对 应 的 数据 集 称 为 多 维 数据 集 , 有 时 也 称 为 数据 立方 体 , 它 
由 事实 和 维 定义 组 成 。 

多 维 数据 集 可 以 用 一 个 多 维 数组 表示 , 它 是 维和 变量 的 组 合 表示 。 一 个 多 维 数据 集 可 
以 表示 为 ( 维 1, 维 2,…, 维 ,变量 列表 )。 

例 4.5 多 维 数据 集 。 

K 4-6 是 某 商 店 的 销售 情况 ,可 以 按 季度 、 地 区 和 商品 组 织 构成 三 维 立 方 体 ,加 上 变量 
“销售 量 ”, 组 成 多 维 数据 集 (季度 ,地 区 ,商品 .销售 量 ) ,数据 集 如 图 4-22 所 示 。 

OLAP 的 基本 操作 主要 包括 对 多 维 数据 进行 切片 、 切 块 、 旋 转 、 上 卷 和 下 销 等 ,这 些 分 
析 可 以 使 用 户 从 多 角度 、 多 侧面 观察 数据 。 
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数据 分 析 与 数据 挖 气 
表 4-6 商店 销售 情况 (单位 : 件 ) 
北 京 E 海 
地 区 
电视 机 电 冰 箱 洗衣 机 电视 机 电 冰 箱 洗衣 机 
第 一 季度 12 34 43 23 21 67 
第 二 季度 15 32 32 54 6 70 
第 三 季度 11 43 32 37 16 67 
第 四 季度 10 30 35 40 20 65 
单位 : 件 


1. 切片 


时 间 



































图 4-22 多 维 数据 集 实例 




















维度 成 员 


在 给 定 的 数据 立方 体 的 一 个 维 上 进行 的 选择 操作 就 是 切片 (Slice) ,切片 的 目的 是 降低 
多 维 数据 集 的 维度 ,使 注意 力 集中 在 较 少 的 维 
BE E. 例如 ,对 图 4-22 所 示 的 数据 立方 体 .多 
维 数据 集 通过 对 第 二 季度 切片 得 到 一 个 切片 
(“第 二 季度 ”, 地 区 ,商品 ,销售 量 ) 子 集 , 相 当 于 
在 原来 的 立方 体 中 切 出 一 片 ,结果 如 图 4-23 


所 示 。 


2. 切 块 


在 给 定 的 数据 立方 体 的 两 个 或 多 个 维 上 进 
行 的 选择 操作 就 是 切 块 (Dice), 切 块 的 结果 是 
得 到 了 一 个 子 立方 体 。 例 如 ,对 图 4-22 所 示 的 数据 立方 体 ,在 时 间 维 上 选择 第 一 季度 和 第 
二 季度 ,在 商品 维 上 选择 “电视 机 ”和 “ 电 冰 箱 ”. 在 地 区 维 上 选择 “北京 ”, 结 果 如 图 4-24 


所 示 。 


3. 上 卷 


洗衣 机 


到 型 
E 
> 
m 


电视 机 


32 70 单位 : 件 
32 6 
15 54 
北京 上 海 
地 区 


图 4-23 切片 后 的 结果 


上 卷 (Roll-Up) 是 在 数据 立方 体 中 执行 聚集 操作 ,通过 在 维 级 别 上 升 或 通过 消除 某 个 或 
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某 些 维 观察 更 概括 的 数据 。 例 如 ,将 图 4-22 所 示 的 数据 立方 体 沿 着 维 的 层次 上 卷 , 由 “ 季 
度 ” 上 升 到 “半年 ”, 得 到 如 图 4-25 所 示 的 立方 体 。 


洗衣 机 75 137 单位 : 件 
商品 ” 电 冰 箱 /A 66 27 



































电视 机 27 77 27 
商品 BAE ag 77 单位 : 件 27 
电视 机 12 34 上 半年 27 m [" 
33 
第 一 季度 ge [ 时 间 36 
时 间 T 7 下 半年 21 m m 
第 二 季度 15 
北京 北京 上 海 
地 区 地 区 
A 4-24 切 块 后 的 结果 图 4-25 上 卷 后 的 结果 


从 图 4-25 中 可 以 看 出 ,销售 量 不 再 按照 “季度 ”分 组 求 值 ,而 是 按照 "半年 ”分 组 求 值 。 
通过 上 卷 操 作 ,决策 人 员 可 以 方便 地 查看 立方 体 中 更 概括 的 统计 数据 ,便于 掌握 经 济 活动 的 
整体 状态 。 

上 卷 的 另外 一 种 情况 是 通过 消除 一 个 或 多 个 维 观察 更 加 概括 的 数据 。 例 如 ,图 4-26 所 
示 的 二 维 立 方 体 就 是 通过 将 图 4-22 所 示 的 三 维 立 方 体 中 消除 了 “商品 " 维 后 得 到 的 结果 ,将 
所 有 商品 的 销量 都 累计 在 了 一 起 。 























(单位 : 件 ) 
第 一 季度 89 | 111 
第 二 季度 79 | 130 
第 三 季度 86 | 120 
第 四 季度 75 | 125 
北京 上 海 


图 4-26 消除 “商品 " 维 后 的 结果 


4. 下 外 


下 外 (Drill-Down) 是 通过 在 维 级 别 中 下 降 或 通过 引入 某 个 或 某 些 维 更 加 细致 地 观察 数 
据 。 例 如 ,对 图 4-22 所 示 的 数据 立方 体 经 过 沿 时 间 维 进行 下 钻 ,将 第 一 季度 下 降 到 月 ,就 得 
到 如 图 4-27 所 示 的 数据 立方 体 。 

同样 ,下 钻 操 作 也 存在 另 一 种 形式 , 即 通过 添加 某 个 或 某 些 维度 实现 。 例 如 ,在 图 4-26 
所 示 的 二 维 立 方 体 中 重新 添加 “商品 ”维度 ,立方 体重 新 回 到 图 4-22 所 示 的 立方 体形 式 。 


5. 旋转 


改变 数据 立方 体 维 次 序 的 操作 称 为 旋转 (Rotate) 。 旋 转 操作 并 不 对 数据 进行 任何 改 
变 ,只 是 改变 用 户 观察 数据 的 角度 。 在 分 析 过 程 中 ,有 些 分 析 人 员 可 能 认为 感 兴趣 的 数据 按 
列表 示 比 按 行 表示 更 为 直观 ,希望 将 感 兴趣 的 维 放 在 Y 轴 的 位 置 。 例 如 ,图 4-28 所 示 的 立 
方 体 就 是 将 图 4-22 所 示 立 方 体 的 “商品 "和 “地 区 ”两 个 轴 交 换 位 置 的 结果 。 
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(单位 : PE) 
商品 洗衣 机 25 30 
"Q kis 20 10 30 
电视 机 4 4 10s 
4 
一 月 4 5 EKo 
2H 5 10 Z 5 o 
三 月 3 8 6 
时 间 15 e 
二 季度 15 54 / DA 
第 三 季度 11 37 20 
第 四 季度 10 40 7 
地 区 
北京 上 海 
图 4-27 下 钻 后 的 结果 
(单位 : 件 ) 
地 区 ”上 海 23 21 67 
Eo 67 
北京 12 34 43 
Vs 43 
第 一 季度 12 34 43 70 
32 
第 二 季度 15 32 32 67 
时 间 32 
第 三 季度 11 43 32 65 
35 
第 四 季度 10 30 35 
电视 机 WH 。 ”洗衣 机 
商品 


图 4-28 旋转 后 的 结果 


4.5 元 数据 模型 


元 数据 (Metadata) 又 称 中 介 数 据 `. 中 继 数据 ,是 描述 数据 的 数据 ,也 是 描述 数据 属性 的 
信息 ,用 来 支持 如 指示 存储 位 置 . 历 史 数据 资源 查找 \ 文 件 记录 等 功能 。 元 数据 存储 对 数据 
结构 ,数据 模型 数据 模型 和 数据 仓库 的 关系 、 操 作 数 据 的 历史 记录 等 内 容 进行 记录 。 数 据 
仓库 的 元 数据 主要 目标 是 为 数据 资源 提供 指南 作用 ,在 整个 数据 仓库 的 设计 和 运行 过 程 中 


起 着 非常 重要 的 作用 ,是 数据 仓库 的 核心 。 


元 数据 是 一 个 相对 的 概念 ,如 果 数 据 A 对 数据 B 进行 描述 ,那么 数据 A 就 是 数据 B 的 
元 数据 ,但 是 如 果 数 据 C 对 数据 A 进行 描述 ,那么 数据 C 就 是 数据 A 的 元 数据 。 元 数据 本 


身 在 结构 上 是 分 层 的 ,上 层 元 数据 对 下 层 元 数据 进行 抽象 描述 。 
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4.5.1 元 数据 的 类 型 


根据 使 用 情况 的 不 同 ,元 数据 可 以 分 为 业务 元 数据 和 技术 元 数据 。 

(1) 业务 元 数据 

业务 元 数据 用 来 和 终端 的 商业 模型 或 者 前 端 工具 建立 映射 关系 ,经 常用 于 开发 决策 
工具 。 
业务 元 数据 从 业务 角度 对 数据 仓库 的 数据 进行 描述 ,即使 R47 业务 元 数据 实例 
不 了 解 技术 的 业务 人 员 也 能 读 懂 数 据 。 业 务 元 数据 主要 包括 访 “业务 元 数据 — 
问 数 据 的 原则 和 数据 的 来 源 ; 系 统 提 供 的 分 析 方 法 和 报表 信息 ; ” MH 
使 用 者 的 术语 所 表达 的 数据 模型 .对象 名 和 属性 名 。 元 数据 为 数据 位 置 
业务 用 户 提供 了 很 大 的 支持 ,为 决策 分 析 人 员 提 供 了 访问 数据 


属性 和 业务 术语 定义 
仓库 信息 的 路 线 图 ,常见 的 业务 元 数据 实例 如 表 4-7 所 示 。 主题 领域 
(2) 技术 元 数据 数据 质量 统计 信息 


技术 元 数据 是 为 了 从 环境 中 向 数据 仓库 进行 转化 而 建立 “数据 仓库 系统 刷新 日 期 
的 ,包括 数据 属性 ,数据 项 以 及 在 数据 仓库 中 的 转换 。 

技术 元 数据 描述 了 关于 数据 仓库 技术 的 细节 ,主要 用 于 开发 .管理 和 维护 数据 仓库 , 主 
要 包含 的 信息 有 描述 数据 仓库 的 结构 ,如 数据 仓库 的 模式 、 层 次 、 视 图 、 维 度 等 ;汇总 所 用 的 
方法 ,包括 数据 粒度 .主题 汇聚 .聚合 .汇总 等 :由 操作 环境 到 数据 仓库 的 映射 ,主要 包括 元 数 
据 以 及 内 容 、 数 据 分 割 .数据 清洗 、 转 换 规则 等 ;业务 系统 、 数 据 仓库 和 数据 集 市 的 体系 结构 。 

根据 元 数据 的 状态 又 可 以 把 元 数据 分 为 静态 元 数据 和 动态 元 数据 两 种 。 

(1) 静态 元 数据 

静态 元 数据 主要 包括 业务 规则 、 类 别 、 索 引 \、 来 源 、 生 成 时 间 ,数据 类 型 等 。 

(2) 动态 元 数据 

动态 元 数据 主要 包括 数据 质量 、 统 计 信息 、 状 态 、 处 理 、 存 储 位 置 、 存 储 大 小 .引用 处 等 。 


4.5.2 元 数据 的 作用 


元 数据 在 数据 仓库 管理 人 员 看 来 是 包含 了 所 有 的 内 容 和 过 程 的 知识 库 , 在 使 用 者 看 来 
是 数据 仓库 的 信息 地 图 ,如 此 重要 的 作用 使 元 数据 存在 于 数据 仓库 建设 的 整个 过 程 中 。 元 
数据 可 以 进行 数据 质量 的 校 验 和 保证 ,也 可 以 审查 数据 问题 ,跟踪 不 正确 的 数据 ,还 可 以 帮 
助 数据 分 析 人 员 有 效 地 使 用 数据 仓库 环境 。 此 外 ,数据 仓库 中 数据 存放 的 时 间 较 长 ,数据 仓 
库 的 结构 也 有 可 能 发 生变 化 ,而 元 数据 模型 可 以 跟踪 这 一 变化 过 程 。 
在 数据 仓库 中 ,元 数据 模型 的 主要 作用 如 下 。 
。 数 据 仓库 内 容 的 描述 。 为 了 能 够 描述 数据 仓库 中 的 数据 以 及 数据 间 的 各 种 复杂 关 
系 , 元 数据 定义 了 数据 仓库 的 一 系列 内 容 。 元 数据 描述 了 数据 仓库 中 有 什么 数据 及 
数据 间 的 关系 ,它们 是 用 户 使 用 和 系统 管理 数据 仓库 的 基础 。 
* 定义 抽取 和 转化 。 元 数据 可 以 用 来 生成 源 代码 以 完成 数据 的 转换 工作 , 即 完成 由 操 
作 型 数据 转换 生成 以 特殊 形式 存放 的 、 面 向 主题 的 数据 仓库 数据 。 元 数据 中 的 抽取 
表 映 射 和 抽取 域 映射 定义 了 实际 抽取 转换 工作 的 过 程 。 
。 基 于 商业 事件 的 抽取 调度 。 抽 取 调 度 是 指 何 时 进行 从 元 数据 到 数据 仓库 的 抽取 工 
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miim 


数据 分 析 与 数据 挖 气 


作 , 元 数据 必须 对 数据 的 抽取 安排 加 以 说 明 。 

* 数据 质量 保证 。 元 数据 必须 提供 一 个 机 制 , 即 针对 特定 应 用 并 根据 用 户 确立 的 数据 
容忍 程度 提醒 用 户 是 否 采用 该 数据 进行 决策 。 

图 4-29 展示 了 元 数据 在 整个 数据 仓库 开发 和 使 用 过 程 中 的 作用 。 


























图 4-29 元 数据 在 整个 数据 仓库 开发 和 使 用 过 程 中 的 作用 


如 图 4-29 所 示 ,通过 原始 业务 数据 以 及 通过 提取 获得 的 元 数据 源 ,可 以 用 于 数据 转换 、 
数据 存储 .主题 区 以 及 用 户 的 分 析 。 


4.5.3 元 数据 的 使 用 


元 数据 可 以 对 数据 仓库 中 的 数据 内 容 和 来 源 进 行 详细 的 解释 说 明 , 这 样 用 户 就 可 以 根 
据 主题 利用 元 数据 查询 数据 仓库 的 内 容 。 元 数据 也 可 以 提供 查询 信息 , 当 元 数据 的 查询 包 
含 用 户 所 要 查询 的 内 容 时 ,查询 就 可 以 实现 复 用 ,这 样 就 不 需要 进行 多 次 查询 了 。 

元 数据 的 使 用 人 员 主 要 分 为 技术 人 员 、 业 务 人 员 和 高 级 使 用 人 员 , 这 三 类 人 员 对 元 数据 
的 使 用 各 不 相同 ,但 都 要 通过 元 数据 进行 相应 的 查询 和 操作 。 

CO 技术 人 员 

技术 人 员 可 以 通过 元 数据 进行 数据 仓库 的 管理 和 维护 ,技术 人 员 需 要 理解 数据 仓库 中 
的 数据 抽取 数据 转换 和 封装 到 数据 仓库 的 过 程 ,技术 元 数据 可 以 让 技术 人 员 更 好 .更 精确 
地 进行 数据 仓库 的 后 续 开发 。 

(2) 业务 人 员 

由 于 业务 人 员 不 熟悉 技术 但 具备 资深 的 业务 背景 .业务 人 员 常 常 需要 从 数据 仓库 中 获 
取 自 己 想 要 的 信息 ,业务 人 员 往 往 通 过 元 数据 确定 数据 仓库 中 数据 的 信息 ,对 于 大 多 数 业务 
人 员 来 说 ,实现 自己 的 查询 操作 和 报表 都 需要 使 用 元 数据 。 

(3) 高 级 使 用 人 员 

高 级 使 用 人 员 既 懂 技 术 也 懂 业 务 ,这些 用 户 理解 业务 数据 ,同时 还 能 以 正常 的 方式 访问 
数据 仓库 系统 ,对 业务 报表 也 很 熟悉 ,他 们 更 多 的 是 关心 数据 是 如 何 发 生变 化 以 及 数据 是 如 
何 转 换 并 进而 加 载 到 数据 仓库 的 。 
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4.6 习题 


. 名 词 解释 : 维 , 维 表 , 事 实 ,事实 表 , 元 数据 。 

. 什么 是 数据 仓库 ? 数据 仓库 的 特点 主要 有 哪些 ? 

. 简 述 数据 仓库 概念 模型 与 逻辑 模型 的 设计 步骤 。 

. 简 述 OLAP 的 特点 。 

. OLAP 5j OLTP 的 区 别 是 什么 ? 

. 在 一 般 的 信息 管理 中 ,采用 哪些 概念 模型 描述 信息 处 理 的 对 象 ? 这 些 概念 数据 模型 
是 否 适合 数据 仓库 的 开发 环境 ? 

7. 随 着 学 生 数量 的 增加 以 及 教学 管理 要 求 的 提高 , 某 中 学 为 满足 数据 信息 化 管理 , 决 
定 组 建 本 学 校 的 教学 管理 系统 ,此 系统 包括 课程 管理 和 学 生 管理 两 个 模块 ,假设 该 系统 中 的 
数据 表 如 下 o 

学 生 表 (学 生 ID ,姓名 ,性 别 , 出 生日 期 ,籍贯 ,职务 ,班级 ID) 

班级 表 ( 班 级 ID ,班级 名 ,教室 ID) 

课程 表 ( 课 程 ID ,课程 名 称 , 课 程 性 质 , 学 期 ID) 

学 期 表 ( 学 期 ID ,学 年 名 ,学 期 名 ) 

教师 表 ( 教 师 ID, 班 级 ID, 教 师 姓名 ,性 别 ,职称 ,出 生日 期 .籍贯 

教室 表 ( 教 室 ID, 教 室 地 址 ) 

请 为 该 中 学 设计 此 数据 仓库 的 星 形 模型 。 


oO cO us ot — 
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7s 
回归 分 析 


回归 分 析 是 使 用 最 为 广泛 的 统计 学 分 支 , 在 质量 管理 ,市 场 营 销 、 宏 观 经 济 管理 等 领域 
都 有 非常 广泛 的 应 用 。 本 章 介 绍 一 元 线性 回归 、 多 元 线性 回归 、 多 项 式 回归 ,这 三 种 回归 方 
法 应 用 非常 广泛 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 基本 的 回归 分 析 原 理 及 应 用 方法 。 


5.1 回归 分 析 概 述 


回归 分 析 (Regression Analysis) 是 确定 两 种 或 两 种 以 上 变量 间 相 互 依赖 的 定量 关系 的 
一 种 统计 分 析 方 法 ,应 用 很 广泛 。 回 归 分 析 按 照 涉及 变量 的 多 少 , 分 为 一 元 回归 分 析 和 多 元 
回归 分 析 ; 按 照 自 变量 和 因 变 量 之 间 的 关系 类 型 ,可 分 为 线性 回归 分 析 和 非 线 性 回归 分 析 。 
如 果 在 回归 分 析 中 ,只 包括 一 个 自 变量 和 一 个 因 变量 , 且 二 者 的 关系 可 用 一 条 直线 近似 表 
示 , 则 这 种 回归 分 析 称 为 一 元 线性 回归 分 析 。 如 果 回 归 分 析 中 包括 两 个 或 两 个 以 上 的 自 变 
量 , 且 自 变 量 之 间 存在 线性 相关 , 则 称 为 多 元 线性 回归 分 析 。 

回归 分 析 主 要 解决 两 个 问题 : 一 是 确定 几 个 变量 之 间 是 否 存 在 相关 关系 ,如 果 存 在 , 则 
找 出 它们 之 间 适 当 的 数学 表达 式 ; 二 是 根据 一 个 或 几 个 变量 的 值 , 预 测 或 控制 男 一 个 或 几 个 
变量 的 值 , 且 要 估计 这 种 控制 或 预测 可 以 达到 何 种 精确 度 。 

在 经 济 管理 和 其 他 领域 中 ,人 们 经 常 需要 研究 两 个 或 多 个 变量 (现象 ) 之 间 的 相互 ( 因 
果 ) 关 系 , 并 使 用 数学 模型 加 以 描述 和 解释 。 例 如 商品 销售 量 与 价格 之 间 的 关系 。 


5.1.1 变量 间 的 两 类 关系 
1. 确定 性 关系 


确定 性 关系 是 指 当 一 些 变量 的 值 确 定 以 后 , 另 一 些 变量 的 值 也 随 之 完全 确定 的 关系 ,这 
些 变量 间 的 关系 完全 是 已 知 的 ,变量 之 间 的 关系 可 以 用 函数 关系 表示 。 

例如 , 圆 的 面积 S 与 半径 + ZKR SS= arr ipm RH HU 与 电流 工 之 间 
的 关系 U= IR... 

图 5-1 表示 价格 不 变 时 , 某 商 品 的 销售 收入 与 销售 量 之 间 的 关系 ,属于 确定 性 关系 。 


2. 非 确定 性 关系 


非 确定 性 关系 是 指 变量 之 间 有 一 定 的 依赖 关系 ,变量 之 间 虽 然 相互 影响 和 制约 ,但 由 于 
受到 无 法 预计 和 控制 的 因素 的 影响 ,使 变量 间 的 关系 呈现 不 确定 性 , 当 一 些 变 量 的 值 确定 以 
后 , 男 一 些 变量 值 虽然 随 之 变化 , 却 不 能 完全 确定 ,这 时 ,变量 间 的 关系 就 不 可 以 精确 地 用 函 
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>FREE 








-—— 
d 销售 量 
图 5-1 某 商 品 销售 收入 与 销售 量 的 关系 


数 表示 , 即 不 能 由 一 个 或 若干 变量 的 值 精确 地 确定 另 一 个 变量 的 值 。 

例如 ,子女 的 身高 与 父母 的 身高 之 间 有 一 定 的 关系 ,但 这 种 关系 不 是 确定 的 , 即 不 能 根 
据 父 亲 与 母亲 的 身高 精确 地 得 出 子女 的 身高 ;再 如 , 某 块 农田 粮食 的 产量 与 施肥 量 之 间 的 关 
系 ; 某 件 商品 的 销售 量 与 广告 费 之 间 的 关系 ,等 等 。 


5.1.2 回归 分 析 的 步骤 


回归 分 析 的 主要 步 又 如 下 。 

(1) 确定 变量 

明确 预测 的 具体 目标 ,也 就 是 确定 因 变 量 。 例 如 ,预测 的 具体 目标 是 下 一 年 度 的 销售 
量 , 那 么 销售 量 Y 就 是 因 变量 。 通 过 市 场 调 查 和 查阅 资料 ,寻找 与 预测 目标 的 相关 影响 因 
素 , 即 自 变量 ,并 从 中 选 出 主要 的 影响 因素 。 

(2) 建立 预测 模型 

依据 自 变 量 和 因 变 量 的 历史 统计 资料 进行 计算 ,在 此 基础 上 建立 回归 分 析 方 程 , 即 回归 
分 析 预 测 模 型 。 

(3) 进行 相关 分 析 

回归 分 析 是 对 具有 因果 关系 的 影响 因素 ( 自 变 量 ) 和 预测 对 象 ( 因 变 量 ) 所 进行 的 数理 统 
计 分 析 处 理 。 只 有 当 自 变量 与 因 变 量 确实 存在 某 种 关系 时 ,建立 的 回归 方程 才 有 意义 。 因 
此 ,作为 自 变量 的 因素 与 作为 因 变量 的 预测 对 象 是 否 有 关 、 相 关 程 度 如 何以 及 判断 这 种 相关 
程度 的 把 握 有 多 大 ,就 成 为 进行 回归 分 析 必 须要 解决 的 问题 。 进 行 相关 分 析 一 般 要 求 出 相 
关 关 系 ,以 相关 系数 的 大 小 判断 自 变量 和 因 变 量 的 相关 程度 。 

(4) 计算 预测 误差 

回归 预测 模型 是 否 可 用 于 实际 预测 取决 于 对 回归 预测 模型 的 检验 和 对 预测 误差 的 计 
算 。 回 归 方 程 只 有 通过 各 种 检验 , 且 预 测 误差 较 小 ,才能 将 回归 方程 作为 预测 模型 进行 
预测 。 

(5) 确定 预测 值 

利用 回归 预测 模型 计算 预测 值 ,并 对 预测 值 进行 综合 分 析 ,确定 最 后 的 预测 值 。 

注意 : 应 用 回归 预测 法 时 ,应 首先 确定 变量 之 间 是 否 存在 相关 关系 。 如 果 变 量 之 间 不 
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存在 相关 关系 , 则 对 这 些 变量 应 用 回归 预测 法 就 会 得 出 错误 的 结果 。 


5.2. 一 元 线性 回归 


一 元 线性 回归 分 析 是 处 理 两 个 变量 之 间 关 系 的 最 简单 模型 ,研究 对 象 是 两 个 变量 之 间 
的 线性 相关 关系 。 通 过 对 这 个 模型 的 讨论 ,不 仅 可 以 掌握 有 关 一 元 线性 回归 的 知识 ,而 且 可 
以 从 中 了 解 回归 分 析 方 法 的 基本 思想 .方法 和 应 用 。 
5.2.1 原理 分 析 

1. 一 元 线性 回归 模型 

一 元 线性 回归 模型 只 包含 一 个 解释 变量 ( 自 变 量 ) 和 一 个 被 解释 变量 ( 因 变量 ) ,是 最 简 
单 的 线性 回归 模型 。 一 元 线性 回归 模型 为 

Y=a+bX +e (5-1) 

其 中 ,X 为 自 变 量 ,Y 为 因 变量 ;a 为 截 距 , 即 常量 ;6 为 回归 系数 ,表示 自 变量 对 因 变 量 
的 影响 程度 ;e 为 随机 误差 项 。 

一 元 线性 回归 模型 的 特点 如 下 。 

@DY 是 X 的 线性 函数 加 上 误差 项 。 

@ 线性 部 分 反映 了 由 于 X 的 变化 而 引起 的 Y 的 变化 。 

© 误差 项 e 是 随机 变量 ,反映 了 除 X 和 YY 之 间 的 线性 关系 之 外 的 随机 因素 对 Y 的 影 
响 , 它 是 一 个 期 望 值 为 0 的 随机 变量 , 即 E(e) 王 0; 也 是 一 个 服从 正 态 分 布 的 随机 变量 , 且 相 
互 独立 , 即 s 一 N(C0,o) 。 

@ 对 于 一 个 给 定 的 X 值 ,Y 的 期 望 值 为 E(Y) 二 a 十 bX, 称 为 Y Xt X 的 回归 。 


2. 回归 方程 

记 a.b 分 别 为 参数 a Ro 的 点 估计 ,并 记 Y 了 为 Y 的 条 件 期 望 已 CY1X) 的 点 估计 ,由 
式 (5-1) 得 

Y—à--bX (5-2) 

式 (5-2) 称 为 回归 方程 。 其 中 ,4 和 2 为 回归 方程 的 回归 系数 ,4 是 回归 直线 在 y 轴 上 的 
截 距 ,6 是 直线 的 斜率 。5 表示 X 每 变动 一 个 单位 时 Y 的 平均 变动 值 。 对 于 每 一 个 =, 值 ， 
由 回归 方程 可 以 确定 一 个 回归 值 六 一 2 十 pri。 
5.2.2 回归 方程 求解 及 模型 检验 

1. 最 小 二 乘法 

可 以 使 用 最 小 二 乘法 (Least Square Estimation,LSE) 求 解 一 元 线性 回归 方程 。 对 每 一 
AP RR Gr; «y ,yi 为 其 实际 测量 值 , 是 通过 式 (5-2) 得 到 的 预测 值 。 最 小 二 乘法 的 原理 就 是 
找到 一 组 G 和 0 ,使 所 有 点 的 实际 测量 值 y; 与 预测 值 3; 的 偏差 的 平方 和 最 小 。 其 中 , 称 


第 5 章 回归 分 析 


Ay=y $ 为 残 差 。 残 差 平 方 和 (Residual Sum of Squares,RSS) 的 定义 为 











QD = >) Gy, — 3⁄2 = >) (y, — á bx (5-3) 
i=l 


i-i 








H5k 5-3) 40. QA DO J& XT a 和 的 二 次 函数 ,所 以 Q(a,D) 存 在 最 小 值 。 巾 微 积分 知 
识 , 分 别 对 a 和 5 求 一 阶 偏 导 并 令 其 一 阶 偏 导 值 为 0。 即 





























90 aS (yj —a— iu) 0 (5-4) 
Jå i=1 
99 = (5-5) 
ab i 


式 (5-4) 和 式 (5-5) 称 为 正规 方程 组 , 据 此 可 求解 出 4 和 2 的 值 为 
去 (5-6) 


Qo Tey zy 
b-rty-iy (5-7) 


T 
Hp z= 1 Mey = ; Dy = l Drys = Fa. 

将 求 得 的 & 和 2 的 值 代入 方程 y=âtbr 中 ,得 到 的 方程 就 是 最 佳 拟 合 曲线 。 
2. 拟 合 优 度 检验 


拟 合 优 度 指 所 求 得 的 回归 直线 对 观测 值 的 拟 合 程度 。 若 观测 值 与 回归 直线 之 间 的 距离 
近 , 则 认为 拟 合 优 度 较 好 ,反之 则 较 差 ,这 里 用 决定 系数 (Coefficient of Determination) J£ fit 
拟 合 优 度 。 

首先 给 出 离 差 .回归 差 , 残 差 的 概念 。 

离 差 定义 为 y,— y ,表示 实际 值 与 平均 值 之 差 。 

回归 差 定义 为 六 一 了 ,表示 估计 值 与 平均 值 之 差 。 

残 差 定义 为 一 六 ,表示 实际 值 与 估计 值 之 差 。 

其 中 , 离 差 = 回归 差 十 残 差 。 三 者 的 关系 如 图 5-2 所 示 。 


v4 














=y 


图 5-2 高 差 . 回 归 差 、 残 差 三 者 的 关系 
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用 总 平方 和 (Total Sum of Squares,TSS) 表 示 因 变量 的 个 观察 值 与 其 均值 的 误差 的 
总 和 ,TSS 是 各 个 数据 离 差 的 平方 和 , 即 


TSS — So- (5-8) 
用 回归 平方 和 (Explained Sum of Squares,ESS) 表 示 自 变量 > 的 变化 对 因 变 量 y. 取 值 
变化 的 影响 ,ESS 是 各 个 数据 回归 差 的 平方 和 , 即 


EsS = 3G cy (5-9) 


HRA 5-75 fl Residual Sum of Squares, RSS) 3 KIRI 与 拟 合 值 之 间 的 差异 程度 ， 
RSS 是 各 个 数据 残 差 的 平方 和 。 即 
RSS = » (y; — 3) (5-10) 
ici 


TSS, ESS, RSS 三 者 之 间 的 关系 为 TSS= ESS+ RSS 即 


$0 y" Y. IHE 6 50 (5-11) 
i=l i=l i=l 








证 明 : 








Do = > [(y — $) + G$ — y) 
i=1 i=1 








Dia — $0* - 2G — $0: — 3) + ($ — 0*1 


i=1 


D (yi 一 十 31 ($i — DD 2*1. — 5) (39 — 5) 
i=1 i=l i 














RSS 二 ESS 十 2>)(y $0 (3; — 3) 
i=1 

















D y: —â— br: â — y) +b) O — â — brazi = 0 











由 式 (5-4) 和 式 (5-5) 知 ，》) Cy a— hr;) oÈ O â—bzr:)x; = 0, (â— y) Hb 
为 常数 。 

证 明 结 束 。 

WERE (Goodness of Fit) 是 指 回 归 直 线 对 观测 值 的 拟 合 程度 。 度 量 拟 合 优 度 的 统计 
量 是 决定 系数 (也 称 确定 系数 )R? ,计算 公式 如 式 (5-12) 所 示 。 


ESS | TSS— RSS RSS 
TSS TSS TSS 


其 中 : R*EL0,1],R? 越 接近 于 1, 说 明 回 归 曲 线 拟 合 度 越 好 ;R? 越 小 ,说 明 回 归 曲 线 拟 
合 度 越 差 。R? 二 0 时 ,表示 自 变 量 z SHEE y 没有 线性 关系 。 当 R? =1 时 ,表示 回归 曲线 
与 样本 点 重合 。 


Ri 








(5-12) 
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3. 线性 关系 的 显著 性 检验 


采用 下 检验 度量 一 个 或 多 个 自 变量 同 因 变量 之 间 的 线性 关系 是 否 显著 。 下 检验 (F 
test) 运 用 服从 下 分 布 的 统计 量 或 方差 比 作为 统计 检验 ,通过 显著 性 水 平 (Significant Level) 
检验 度量 回归 方程 的 线性 关系 是 否 显著 。 

下 检验 的 计算 方式 为 


es ESS/k 
RSS/(n—k— 1) 


HIRM F Ff F=(k.n—k—1), 

其 中 为 自由 度 ( 自 变量 的 个 数 ),n 为 样本 总 量 。 一 元 线性 回归 方程 只 有 一 个 自 变量 
x PVA k=l. 

F 值 越 大 ,说 明 自 变量 和 因 变 量 之 间 在 总 体 上 的 线性 关系 越 显 著 , 反 之 线性 关系 越 不 
显著 。 


4. 回归 参数 的 显著 性 检验 


F (5-13) 


采用 (上 检验 对 回归 参数 进行 显著 性 检验 ,上 检验 检测 变量 x 是 否 是 被 解释 变量 y 的 一 个 
显著 性 的 影响 因素 ,检验 是 用 于 样本 的 两 个 平均 值 差异 程度 的 检验 方法 , 它 使 用 了 分 布 理 
论 推断 差异 发 生 的 概率 ,从 而 判断 两 个 平均 数 的 差异 是 否 显 著 。 

t 检测 的 计算 方式 为 


(5-14) 





(5-15) 








其 中 ,六 是 自 变量 £, 的 回归 参数 ,ss 是 回归 参数 的 抽样 分 布 的 标准 差 ,k 为 自由 度 n 
为 样本 总 量 ,RSS 为 残 差 平方 和 。 

对 于 一 元 线性 回归 模型 ,只 有 一 个 自 变量 x; H b =b, H hE kS. 

如 果 某 个 自 变量 x; 对 因 变 量 y 没有 产生 影响 或 者 影响 很 小 ,应 当 将 自 变 量 >, 的 系数 
取 值 为 0, 即 已 一 0。 


5.2.3 一 元 线性 回归 实例 


例 5.1 某 种 商品 与 家 庭 平均 消费 量 的 关系 。 

以 某 家 庭 为 调查 单位 , 某 种 商品 在 某 年 各 月 的 家 庭 平均 月 消费 量 Y(Ckg) 与 其 价格 X 
(元 /kg) 之 间 的 调查 数据 如 表 5-1 所 示 。 

图 5-3 为 该 商品 的 家 庭 平 均 月 消费 量 与 价格 之 间 呈 现 的 关系 。 
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85 。 数据 分 析 与 数据 挖 握 


表 5-1 商品 价格 与 消费 量 的 关系 





价格 X 5.0 | 5.2 | 5.8 6.4 | 72.0 Ta sa 83 87 | 90 | 6.6] 11 
消费 量 了 4.9 | 50 | 3.6 |-3,8. | 36 | 9,5 | 2/9 | 3,3 | 2,9 | 2;2 | 2,5 | 3:6 
6 
5 ° 





消费 量 了 











2 4 6 8 10 12 
价格 X 


图 5-3 商品 价格 与 消费 量 之 间 的 线性 关系 


由 图 5-3 可 知 , 该 商品 在 某 家 庭 月 平均 消费 量 Y 与 价格 X 间 基 本 呈 线 性 关系 ,这 些 点 
与 直线 间 的 偏差 是 由 其 他 一 些 无 法 控制 的 因素 和 观察 误差 引起 的 ,根据 Y 与 X 之 间 的 线性 
关系 及 表 5-1 中 数据 可 以 求 得 两 者 之 间 的 回归 方程 。 

(1) 求解 一 元 线性 回归 方程 

解 : 根据 表 5-1 中 的 数据 求 得 yxy、zx7。 


(5.0 十 5.2 十 5.8 十 6.4 十 7.0 十 7.0 十 8.0 十 8.3 十 8.7 十 9.0 十 10.0 十 11) 























12 
= 7; 616667 
5 一 十 (4.0 十 5.0 3.6 十 3.8 十 3.0 十 3.5 十 2.9 十 3.1 十 2.9 十 2.2 十 2.5 十 2.6) 
= 3. 258333 
zy — 15,0.0X 4,0--5.2X 5.04-5.8X 3.6464 X3.8--7.0 X 3.04 
7.0X3.5--8.0X 2.9--8.3X 3.1--8.7 X 2.9-F9.0 X 2.2--10.0 x 
2.5+11X 2.6) 
= 23.688333 
Z= 6.0 +5. 2? +5. 8? +6. 4? 7,0 +7. 0? +8. 0? +8. 3? + 


8. 7? +9. 0* +10. 0? + 112) = 61. 268333 


WB Ty ayc RAE b 48 
¿ — 1.616667 X 3. 258333 — 23. 688333 
7. 616667 — 61. 268333 











0. 346975 


Ad br. 求解 4。 
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á = 3.258333 — (— 0. 346975) X 7. 616667 = 5. 901126 
故 求 得 的 线性 回归 方程 为 > 一 一 0.346975z 十 5. 901126 。 
(2) 回归 方程 拟 合 优 度 检验 
例 5-1 中 ,价格 工 \ 平 均 月 销售 量 预测 5、 实际 销售 量 y 的 数据 集 如 表 5-2 所 示 。 


表 5-2 xy y 的 数据 集 





= y y 
5.0 4.166251 4.0 
5.2 4.096856 5.0 
5.8 3.888671 3.6 
6.4 3.680486 3.8 
7.0 3.472301 3.0 
7.0 3.472301 3.5 
8.0 3.125326 2.9 
8.3 3.0212335 3.1 
8.7 2. 8824435 2.9 
9.0 2.778351 2.2 

10.0 2.431376 2.5 
11.0 2.084401 2.6 








解 : 根据 式 (5-8) 和 式 (5-9) 求 解 TSS、ESS。 
TSS = (4. 0 — 3. 258333)? + (5. 0 — 3. 258333)? + (3. 6 — 3. 258333)? 4 
(3. 8 — 3. 258333)? + (3. 0 — 3. 258333)? + (3. 5 — 3. 258333)? 4 
(2. 9 — 3. 258333)? + (3.1 — 3. 258333)? + (2. 9 — 3. 258333)? 4 
(2. 2 — 3. 258333)? + (2. 5 — 3. 258333)? + (2. 6 — 3. 258333)? 
—6. 263581 
ESS — (4. 166251 — 3. 258333)? + (4. 096856 — 3. 258333)? 十 
(3. 888671 — 3. 258333)? + (3. 680486 — 3. 258333)? 4 
(3. 472301 — 3. 258333)? + (3. 472301 — 3. 258333)? 4 
(3. 125326 — 3. 258333)? + (3. 0212335 — 3. 258333)? + 
(2. 8824435 — 3. 258333)? + (2. 778351 — 3. 258333)? + 
(2. 431376 — 3. 258333)? + (2. 084401 — 3. 258333)? 
—4. 702097 
根据 式 (5-12) 求 解 R 。 











T 








— 4.702097 
6.263581 


R° 接近 于 1, 说 明 该 回归 方程 拟 合 度 较 好 。 
(3) 回归 方程 线性 关系 的 显著 性 检验 
对 于 例 5-1, 求 解 其 下 值 。 
解 : 首先 求解 下 分 布 的 值 。 
fi] 5-1 中 ,k= 二 1,n 二 12, 假 设 a 二 0.05, 经 查 下 值 表 有 : 


R? = 0. 750704 
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数据 分 析 与 数据 挖 握 


Fo.os Gn — k — 1) = Fou(1,10) = 7.507 

然后 根据 式 (5-11) 利 用 ESS, TSS 和 RSS 三 者 之 间 的 关系 求解 RSS, 
RSS = 6. 263581 — 4. 702097 = 1.561484 

最 后 根据 式 (5-13) 求 解 下 值 。 











4. 702097/1 
1.561484/(12—1— D 


KIAI F (Eg 30. 12877 Fo (1.10) — 7. 507, 所 以 在 显著 性 概率 为 0. 05 的 条 件 下 , 回 
归 方 程 显著 成 立 。 

(4) 回归 参数 的 显著 性 检验 

对 于 例 5-1, 求 解 其 + 值 。 

解 : 首先 根据 :分 布 表 求解 + 分 布 值 。 

例 5-1 中 ,n==12, 在 置信 和 度 水 平 (Confidence Level) 为 0.05 的 情况 下 ,经 查 1 分布 表 知 z 
值 为 1.782。 

然后 根据 式 (5-15) 求 解 得 s 的 值 为 0.068396。 

最 后 ,根据 式 (5-14) 求 得 1 值 为 


_ —0.346975 _ _ 
t = “0.068396 P 07991 


[t| =5. 07301>1. 782. MIZE r 对 于 因 变 量 y 有 显著 影响 。 
其 中 ,置信 度 水 平 是 指 总 体 参 数值 落 在 样本 统计 值 某 一 区 内 的 概率 ,用 来 表示 区 间 估 计 
的 把 握 程 度 。 假 设置 信和 度 水 平 为 0.05 ,表示 真 值 发 生 的 概率 为 95%. 


5.2.4 案例 分 析 : 使 用 Weka 实现 一 元 线性 回归 


例 5.2 信用 卡 积分 与 月 收入 之 间 的 线性 关系 。 

某 家 银行 想 统计 信用 卡 积分 与 使 用 者 月 收入 之 间 的 关系 , 现 有 一 个 文件 bank. arff, 该 
文件 包含 7 个 属性 (月 收入 、 每 月 工作 天 数 、 当 前 信用 卡 额度 ,历史 统计 的 按时 还 款 比例 、 曾 
经 的 最 大 透支 额 \ 银 行 贷款 的 数目 、 信 用 卡 积分 ) ,但 是 银行 只 想 统计 信用 卡 积分 与 月 收入 之 
间 的 关系 ,所 以 在 构建 模型 的 时 候 需要 去 除 其 余 6 个 属性 的 影响 ,只 留 下 "月 收入 "这 一 个 
属性 。 

该 文件 为 自 定义 文件 ,文件 bank. arff 的 内 容 如 下 。 


@ RELATION creditCardScore 
$9955 

SSECTION1:PERSONAL INFO 
%%%% 

*% 

s 月 收入 

* 

G ATTRIBUTE personInfo.monthlySalary NUMERIC 
$555 

*SSECTION2: BUSINESS INFO 
$555 

* 
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$ 每 月 工作 天 数 

* 

Q ATTRIBUTE businessInfo.workingDayPerMonth NUMERIC 
$555 

&SECTION 3: CREDIT CARD INFO (fri JH + fri ËL) 

$555 

$% 

% 当 前 额度 

* 

@ ATTRIBUTE creditCardInfo.currentLimit NUMERIC 
$ 

$ 月 度 正常 还 款 比 例 

$ 

@ ATTRIBUTE creditCardInfo.percentageOfNormalReturn NUMERIC 
多 

$ 曾 经 最 大 透支 额 

多 

QRATTRIBUTE creditCardInfo.maximumOverpay NUMERIC 
%%%% 

&SECTION 4: FINANCIAL INFO (财政 信息 ) 

%%%% 

% 

% 贷 款 数目 

% 

& ATTRIBUTE financialInfo.personalLoan NUMERIC 
%%%% 

%RESULT: CREDIT SCORE (积分 ) 

%%%% 

@ ATTRIBUTE creditScore NUMERIC 

@ DATA 

10000,22,20000,1,0,200000,55 
15000,20,30000,0.5,14200,20000, 78 

20000, 18, 40000, 0 . 6, 50000, 200000, 87 

30000, 22, 60000, 0 .2, 30000, 150000, 67 

22000, 15, 30000, 0 . 7, 20000, 140000, 71 

13200, 21, 18000, 0 . 9, 40000, 500000, 43 

15500, 20, 30000, 0.4, 14200, 20000, 59 

25000, 26, 40000, 0.5, 50000, 200000, 88 

28670, 23, 40000, 0.7, 30000, 120000, 68 

22000, 15, 40000, 0.7, 20000, 140000, 72 

10000, 18, 20000, 0.6, 30000, 150000, 47 

14300, 20, 29800, 0.5, 14200, 20000, 72 

20000, 18, 40000, 0.9, 50000, 200000, 88 

34335, 22, 50000, 0.6, 30000, 150000, 74 

24555, 15, 20000, 0.9, 20000, 120000, 79 
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10055,22,80000,1,0,200000, 76 
15000, 20, 80000, 0.9, 90200, 20000, 86 
25440, 17, 30000, 0.7, 50000, 200000, 82 
30000, 22, 70000, 0.2, 30000,0, 72 
22000, 30, 80000, 0.7, 20000, 140000, 71 


使 用 Weka 实现 一 元 线性 回归 的 具体 步骤 如 下 。 
(D 打开 Weka 软件 ,进入 Weka 主页 面 ,如 图 5-4 所 示 。 





图 5-4 Weka 图 形 用 户 界面 选择 器 


© 在 图 5-4 中 , 单 击 Explorer 按钮 ,在 出 现 的 Weka Explorer 窗口 中 , 单 击 Open file... 
按钮 ,在 出 现 的 图 5-5 中 选择 bank. arff 文件 。 





图 5-5 打开 文件 


© 在 图 5-5 中 单 击 “ 打 开 ” 按 钮 ,返回 如 图 5-6 所 示 的 有 数据 集 bank. arff 的 Weka 
Explorer 窗口 。 
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图 5-6 导入 数据 集 的 Weka Explorer 


(D 单 击 Edit..…. 按 钮 ,弹出 一 个 名 称 为 Viewer 的 对 话 框 , 列 出 该 数据 集中 的 全 部 数据 ， 
该 窗口 以 二 维 表 的 形式 展现 数据 ,用 户 可 以 查看 和 编辑 整个 数据 集 , 如 图 5-7 所 示 。 


1 
2 
5 
4 
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D 
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E 
D 
do 
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E] 
Li 
“ 
15 
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7 
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E] 
E] 





图 5-7 数据 集 编辑 器 对 话 框 


由 图 5-7 知 ,bank. arff 数据 集 共 有 20 条 信息 ,每 条 信息 包含 7 个 属性 ,分 别 为 personInfo 
.monthlySalary( 月 收入 )、businessInfo. workingDayPerMonth( 每 月 工作 天 数 ) .creditCardInfo. 
currentLimit( 当前 信用 卡 额度 )、creditCardInfo. percentageOfNormalReturn( 历 史 统计 的 按时 还 
款 比 例 ) ,creditCardInfo. maximumOverpay( 曾 经 的 最 大 透支 额 ) ,financialInfo. personaLoan( 银 
行 贷款 的 数目 ) ,creditScore( 信 用 卡 积分 ) 。 

以 第 2 行为 例 , 月 收入 为 15000. 0 元 ,每 月 工作 天 数 为 20 R. 当前 信用 卡 额度 为 
30000. 0 元 ,历史 统计 的 按时 还 款 比 例 为 0.5, 曾 经 的 最 大 透支 额 为 14200. 0 元 ,银行 贷款 的 
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数目 为 20000.0 元 ,信用 卡 积分 为 78. 0。 
© Xm E 5-7 后 ,返回 5-6. 在 Attributes 区 域 中 ,选中 除了 financialInfo. 
monthlySalary 和 creditScore 之 外 的 其 他 属性 , 单 击 Remove 按钮 ,如 图 5-8 所 示 。 








图 5-8 移 除 属性 


© 选择 Classify 选项 卡 , 在 出 现 的 图 5-9 中 单 击 Choose 按钮 ,选择 LinearRegression 
选项 ,如 图 5-9 所 示 。 














图 5-9 选择 LinearRegression 选项 


第 5 章 回归 分 析 


C) 返回 图 5-10 后 ,在 左 侧 的 Test options 区 域 中 ,选择 Use training set 选项 。 该 区 域 
为 数据 划分 参数 设置 ,有 四 个 选项 ,分 别 为 Use training set, Supplied test set, Cross- 


validation, Percentage split, 


| Choose | R 0-R 1.0E-8-num-decimak-places 4 


q 


[unas W 








图 5-10 选择 Test options 选项 


Use training set: 将 全 部 数据 用 作 模 型 训练 。 

Supplied test set: 设置 测试 集 , 模 型 训练 完成 后 ,从 这 里 设置 测试 数据 集 。 

Cross-validation: 将 数据 集 按照 交叉 验证 的 方法 均匀 划分 ,一 部 分 作为 训练 集 , 另 一 部 
分 作为 测试 集 。 

Percentage split; 按照 一 定 比例 ,将 数据 集 划 分 为 训练 集 和 测试 集 。 

实验 采用 Use training set 选项 进行 实验 。 

@ 在 图 5-10 中 , 单 击 Start 按钮 ,可 以 看 到 对 数据 集 bank. arff 的 分 析 结 果 , 并 且 给 出 
了 回归 方程 的 一 些 数据 统计 结论 ,如 图 5-11 所 示 的 右 侧 窗口 。 

分 析 结 果 显 示 了 creditScore 与 personlnfo. monthlySalary 之 间 的 线性 函数 关系 : 
creditScore = 0. 0006 * personlnfo. monthlySalary + 58. 8169, 并 显示 了 相关 系数 
(Correlation coefficient)、 平 均 绝 对 误差 (Mean absolute error) 、 均 方 根 误差 (Root mean 
squared error) ,相对 绝对 误差 (Relative absolute error)、 相 对 平方 根 误差 (Root relative 
squared error) 和 案例 数 (Total Number of Instances) 的 数值 。 

相关 系数 (Correlation coefficient) 值 大 于 0, 说 明 回归 方程 是 正 相 关 的 ,creditScore pfi 
着 personInfo. monthlySalary 的 增加 而 增加 ;绝对 平均 误差 (Mean absolute error) ,35 77 4R 
误差 (Root mean squared error) 、 相 对 绝对 误差 (Relative absolute error) 、 相 对 平方 根 误差 
(Root relative squared error) 表 明了 所 求 回归 方程 与 实际 值 之 间 的 各 项 误差 。 
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[cnoose |i moartegression supinEanmuemamt | 


creditscore = 


0.0006 * personInfo.monthlySalary + 
58.8169 


Time taken to build model: 0 seconds 
=== Evaluation on training set === 


Time taken to test model on training data: 0 seconds 


0.3631 
9.9035 
11.6072 
106.4891 & 
93.1751 + 
20 











图 5-11 数据 集 分 析 结 果 


5.3 多 元 线性 回归 


多 元 线性 回归 研究 一 个 因 变 量 与 多 个 自 变量 之 间 的 线性 关系 。 有 时 ,单独 的 一 个 自 变 
量 不 能 很 好 地 解释 因 变 量 , 一 个 因 变 量 受 多 个 自 变量 的 影响 ,这 在 实际 应 用 中 是 很 常见 的 


现象 。 
5.3.1 原理 分 析 

1. 多 元 线性 回归 模型 

多 元 线性 回归 模型 表示 的 是 多 个 解释 变量 ( 自 变 量 ) 与 一 个 被 解释 变量 ( 因 变 量 ) 之 间 的 
线性 关系 。 

设 被 解释 变量 Y 与 多 个 解释 变量 Xi,Xs,Xa,…','Xe 之 间 具 有 线性 关系 , 称 之 为 多 元 线 
性 回归 模型 , 即 

Y=a+bXi+b X++ +bX, +e (5-16) 

其 中 ,Y 为 被 解释 变量 ,Xi Xe Xen X, 为 解释 变量 ,e 表示 随机 误差 。 多 元 线性 回 

归 模 型 的 特点 如 下 。 


OY 5 Xi.Xi Xon X 之 间 具 有 线性 关系 。 
© 各 个 观测 值 Y;(i 二 1,2,…,n) 之 间 相互 独立 。 
© 随机 误差 e— N(0,a2) 。 
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2. 回归 方程 


假设 a.b bs sn bu Y FD a sbi bo n sbi Y 的 点 估计 值 , 则 多 元 线性 回归 方程 如 
式 (5-17) 所 示 。 


Y=a+bX,+bX,+- +ËX, (5-17) 
其 中 ,a 为 回归 方程 的 常数 项 ,6 ,5,,… ,bi 为 偏 回归 系数 。 式 (5-17) 的 一 般 形式 为 
$= ât biri +b,z, + +b, (5-18) 
对 于 nn 组 样本 这 1 ,x2i ,zs Zh，yi(i 二 1,2,…,n) ,其 回归 方程 组 形式 为 
i = â+ bixu bru d + bara (5-19) 








即 


yg = à bx + bra dq + brn 


ya = a + biz 十 zzs Tec brzi (5-20) 





Yn = Â + biz, + boxe, + tt + bars 
5.3.2 回归 方程 求解 及 模型 检验 
1. 最 小 二 乘法 求解 回归 方程 
使 用 最 小 二 乘法 求解 回归 方程 的 各 个 参数 , 残 差 平方 和 RSS 的 定义 如 式 (5-21) 。 











RSS = Q(à.b b) = >] Gi— 50! = >) Gi —áà— bias — bias — 7 — bry)’ 
i=l i=l 
(5-21) 


HPQ. b v 61) 分 别 对 4,61,… ,br 求 一 阶 偏 导 并 置 一 阶 偏 导 为 0, 得 到 式 (5-22) 
的 方程 组 。 








9 
= 0 
ad^ 
9 
—Q=0 
9b, 
2 Q-0 (5-22) 
3b, 
—Q-o 
3b, 


根据 式 (5-22) ,化 简 得 
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256; á biti ba Tai set brzu) 0 
2zu >) y; a bizi bz z; see brzu) 0 
i=l 
g x " 5 (5-23) 
2an 9) (yi — à — bixu — b za — 7 — rru) = 0 
i=l 
2ay > yi a bizi bixs e.. bixu) 0 
i=] 
求解 式 (5-23), 即 可 得 到 回归 方程 的 参数 估计 值 4,61 eis 
2. 回归 方程 的 拟 合 优 度 检验 
使 用 决定 系数 R* 对 回归 方程 进行 拟 合 优 度 检 验 。 
,. ESS _ TSS— RSS _ , _ RSS ; : 
R TSS TSS 1 TSS' R € [0.1p (5-24) 
其 中 总 平方 和 TSS 为 


TSS- Mo, —3y»* 
回归 平方 和 ESS 为 B 

ESS — 3G-» 
残 差 平方 和 RSS 为 B 

RSS — > Gi — J)? 


R 越 大 表示 回归 方程 的 拟 合 程 度 越 好 ,R? 越 小 表示 回归 方程 的 拟 合 程度 越 差 。 

在 实际 应 用 中 ,如 果 在 回归 模型 中 增加 一 个 解释 变量 x, , 则 得 到 的 R° 会 变 大 。 这 样 往 
往 会 产生 一 种 误解 : 只 要 增加 解释 变量 ,就 能 使 回归 模型 的 拟 合 程度 变 好 。 但 是 ,现实 是 回 
归 方 程 拟 合 程 度 与 增加 解释 变量 导致 的 R° 变 大 无 关 , 所 以 需要 对 R° 进行 适当 调整 ,降低 
解释 变量 数量 对 R 的 影响 。 新 的 R° 用 R° 表示 : 


RSS/i — k — 1) 
TSS/i— D 


其 中 ,RSS 的 自由 度 为 n 一 & 一 1,TSS 的 自由 度 为 n 一 1。nn 为 样本 总 量 ,k 为 解释 变量 
个 数 。R? 越 大 表示 回归 方程 的 拟 合 程度 越 好 ,R? 越 小 表示 回归 方程 的 拟 合 程度 越 差 。 
R 与 R 的 关系 如 式 (5-26)。 


2 2 t=] 
R = R= 


R = 1 一 (5-25) 





(5-26) 
据 式 (5-26) 知 : 

© #4 k=0 h}, R? =R?; 

© R° 可 能 小 于 0; 
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© 4 k>0 RKR. 
3. 线性 关系 的 显著 性 检验 


本 节 使 用 下 检验 对 多 元 线性 回归 方程 进行 线性 关系 的 显著 性 检验 。 对 于 多 元 线性 回 
归 方 程 , 自 变量 个 数 为 n, 所 以 二 n。 所 求 下 值 越 大 ,说 明 线 性 关系 越 显 著 , 反 之 越 不 显著 。 


4. 回归 参数 的 显著 性 检验 


本 节 使 用 上 检验 对 多 元 线性 回归 方程 进行 回归 参数 的 显著 性 检验 。 对 于 多 元 线性 回归 
方程 , 自 变量 个 数 为 n, 故 需 分 别 对 个 回归 参数 进行 1 检验 ,分 别 检验 各 个 回归 参数 是 否 对 
回归 方程 有 显著 性 影响 。 


5.3.3 多 元 线性 回归 实例 


例 5.3 某 商品 销售 量 与 商品 价格 和 人 均 月 收入 之 间 的 关系 。 
已 知 某 商品 的 销售 量 受 商品 价格 和 人 均 月 收入 这 两 个 因素 的 影响 , 表 5-3 是 该 商品 在 
某 年 1 月 至 10 月 间 每 个 月 的 销售 量 情况 。 


表 5-3 某 商品 1 月 至 10 月 的 销售 量 





月 份 1 2 8 4 Š 6 7 8 9 10 
商品 价格 (元 / 件 ) 89 78 70 60 69 52 45 56 32 45 
人 均 月 收入 (元 ) 560 530 | 600 | 680 | 750 830 880 | 830 | 980 | 1100 
商品 销售 量 ( 件 ) 5800 | 5890 | 6200 | 6800 | 7100 | 8900 | 9000 | 8100 | 9990 | 9800 


其 中 ,人 均 月 收入 (元 ) 和 商品 价格 (元 / 件 ) 是 解释 变量 ,商品 销售 量 ( 件 ) 是 被 解释 变量 。 

求解 多 元 线性 回归 方程 。 

f. 假设 回归 方程 为 y= 二 a 十 bz 十 bx,。y 为 商品 销售 量 ,zi 为 商品 价格 ,zs 为 人 均 
月 收入 。 

根据 最 小 二 乘法 求解 方法 , 残 差 平方 和 RSS 为 











10 10 
RSS = Q(à.bi bj) = 9) (Wi 一 四 一 >) (yi —á bis — hz)’ 
i=] i=1 


Qt(à b, b) AIII anbi b 求 偏 导 ,得 








2916; á bx box) 0 
10 z Z 
— 2) ruly: —á — biru — bas) = 0 
i=1 


10 
= —à —bix — bau) = 0 
ici 


WAR 5-3 中 数据 ,得 
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mIa REM 5 RE4SE 


77580 — 10 X á — b, X 596 — b, x 7740 = 0 








10 
Plau X y; — 596 X à — 38180 X Ë, — 435830 X ñ, = 0 
i=1 


10 10 
> za X y; — 7740 X à — 435830 X bj — J z} = 0 
i=l i=1 


求解 得 : a=4990. 519.0, =— 35. 66597 +b: =6. 19273。 故 回归 方程 为 
y = 4990. 519 — 35. 665972, + 6. 192732; 
回归 方程 拟 合 优 度 检 验 。 
解 : 根据 求 得 的 多 元 线性 回归 方程 可 得 到 商品 销售 量 的 预测 值 3, 如 表 5-4 所 示 。 
表 5-4 商品 销售 量 的 预测 值 了 
1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 H 





5284 5490 6209 7061 7174 8288 8835 8133 9918 10197 


根据 表 5-3 求 得 商品 销售 量 的 平均 值 > 一 7758 。 
根据 式 (5-8)、 式 (5-9) 求 解 TSS、ESS。 
TSS — (4. 0 — 3. 258333)? + (5. 0 — 3. 258333)? + (3. 6 — 3. 258333)? 4 
(3. 8 — 3. 258333)? + (3. 0 — 3. 258333)? + (3. 5 — 3. 258333)? 4 
(2. 9 — 3. 258333)? + (3. 1 — 3. 258333)? + (2. 9 — 3. 258333)? 4 
(2. 2 — 3. 258333)? + (2. 5 — 3. 258333)? + (2. 6 — 3. 258333)? 
—6. 263581 
ESS = (4. 166251 — 3. 258333)? + (4. 096856 — 3. 258333)? 4 
(3. 888671 — 3. 258333)? + (3. 680486 — 3. 258333)? 4 
(3. 472301 — 3. 258333)? + (3. 472301 — 3. 258333)? 4 
(3. 125326 — 3. 258333)? + (3. 0212335 — 3. 258333)? 4 
(2. 8824435 — 3. 258333)? + (2. 778351 一 3. 258333)? 4 
(2. 431376 — 3. 258333)? + (2. 084401 — 3. 258333)? 
—4. 702097 
根据 式 (5-12) , 求 得 














T 





2 — ESS 4.702097 


R! = ss = 6.263581 


= 0.758 


根据 式 (5-26) , 求 得 


R-21—aü-g— iod 


zg 7 170.242 X ig z] = 0.6888 

R° 接近 于 1 ,表示 求 得 的 回归 方程 的 拟 合 度 很 高 。 

回归 方程 下 检验 。 

解 : 首先 根据 式 (5-11) 利 用 ESS、TSS 和 RSS 三 者 之 间 的 关系 求解 RSS。 
RSS = TSS — ESS = 6.263581 — 4. 702097 = 1.561484 


本 例 中 , 自 变量 个 数 为 2, 所 以 k= 二 2; 数 据 量 共 10 组 ,所 以 n—10, 
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然后 根据 式 (5-13) 求 解 下 值 。 


ESS/k 4.702097/2 10.54 
RSS/(a—k—1)  1.561484/(10—2— D) 7 


假设 a=0. 05. EK , Foos Gn — k— D = Foos (2:7) —4. 7310. 54。 所 以 ,在 显著 性 
概率 为 0. 05 的 条 件 下 ,回归 方程 显著 成 立 。 
回归 方程 1 检验 。 
解 : 首先 根据 :分布 表 求 解 t 分 布 值 。 
例 5-6 中 ,n==10, 在 置信 和 度 水 平 为 0. 05 的 情况 下 ,经 查 上 分布 表 , 知 1 值 为 1. 812。 
然后 根据 式 (5-14) 和 式 (5-15) 求 解 得 : 
to, =— 2. 74628 
ty, = 4.011534 
如 和 也 分 别 是 回归 方程 回归 系数 请 A b 的 + 检验 。 
|o, | 和 | | 值 均 大 于 上 分 布 值 1. 812, 所 以 ,两 个 自 变 量 均 对 因 变量 y 有 显著 性 影响 。 


5.3.4 案例 分 析 : 使 用 Weka 实现 多 元 线性 回归 


例 5.4 信用 卡 积分 与 多 个 影响 因子 之 间 的 线性 关系 。 

某 银行 想 知道 信用 卡 积分 与 “月 收入 “历史 统计 的 按时 还 款 比例 “曾经 的 最 大 透支 额 ” 
“银行 贷款 的 数目 "这 四 个 影响 因素 之 间 的 线性 关系 , 仍 使 用 例 5-3 中 的 bank. arff, 在 构建 
模型 的 时 候 需 要 去 除 “ 每 月 工作 天 数 ”当前 信用 卡 额度 ”这 两 个 属性 的 影响 。 

实验 步骤 如 下 。 

CD 按照 例 5-3 中 的 步骤 四 一 轿 操 作 , 打 开 Weka 软件 ,引入 数据 集 。 

© 引入 数据 集 之 后 的 界面 如 图 5-12 所 示 。 











F 














图 5-12 引入 数据 集 后 的 界面 


mO 数据 分 析 与 数据 挖 报 


© 对 于 图 5-12. YE Attributes 选项 下 ,选择 businessInfo. workingDayPerMonth 属性 和 
creditCardInfo. currentLimit 属性 , 单 击 Remove 按钮 ,如 图 5-13 所 示 。 











图 5-13 移 除 属性 


(D 单 击 Classify 选项 卡 ,在 Classifier 属性 下 ,选择 LinearRegression 选项 ,如 图 5-14 
所 示 。 

















图 5-14 选择 LinearRegression 选项 
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© 在 左 侧 的 Test options 属性 中 选择 Use training set 选项 ,如 图 5-15 所 示 。 


| choose | Regression -S 0 -R 1 0E-8 -num-decimakplaces 4 








图 5-15 选择 Test options 选项 


© 单 击 Start 按钮 , 则 可 以 很 清楚 地 看 到 对 于 当前 数据 集 的 分 析 结 果 , 并 且 给 出 了 数学 
公式 和 一 些 数据 统计 结论 ,如 图 5-16 所 示 。 





图 5-16 数据 集 分 析 结 果 


分 析 结 果 显 示 了 creditScore 与 四 个 影响 因子 之 间 的 线性 函数 关系 为 
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EE 2-3 5 3 5 42 48, 


creditScore 一 0. 0007 * personlnío. monthlySalary + 
22. 2912 * creditCardInfo. percentageOfNormalReturn + 
0. 0002 * creditCardInfo. maximumOverpay + 
— 0. 0001 * financialInfo. personalLoan + 
43.96 
据 此 得 到 了 信用 卡 积分 与 “月 收入 ”历史 统计 的 按时 还 款 比例 ”曾经 的 最 大 透支 额 ” 
“银行 贷款 的 数目 ”这 四 个 影响 因素 之 间 的 线性 模型 。 


5.4 ”多项式 回归 


多 项 式 回归 研究 的 是 一 个 因 变 量 与 一 个 或 多 个 自 变量 之 间 的 多 项 式 关系 。 在 实际 问题 中 ， 
因 变 量 与 自 变量 之 间 的 关系 不 一 定 是 线性 关系 。 例 如 麻醉 剂 药 效 与 时 间 的 关系 , 药 效 是 先 增 强 
后 减弱 ,此 时 不 能 用 线性 回归 表示 两 者 之 间 的 关系 ,可 以 采用 多 项 式 方程 表示 两 者 之 间 的 关系 。 


5.4.1 原理 分 析 


研究 一 个 因 变 量 与 多 个 自 变量 之 间 的 多 项 式 关 系 称 为 多 项 式 回归 (Polynomial 
Regression) 。 若 自 变量 的 个 数 为 1, 则 称 为 一 元 多 项 式 回归 ;车 自 变量 的 个 数 大 于 1, 则 称 
为 多 元 多 项 式 回 归 。 

一 元 次 多 项 式 回归 方程 为 

y — ac br d bx! + + + brt (5-27) 
其 中 ,只 有 一 个 自 变量 z, ibo et ,bi 为 多 项 式 的 系数 ,a 为 多 项 式 的 截 距 。 
例如 ,二 元 二 次 多 项 式 回归 方程 为 
$ = as + biz; + bis bax? + b,z2 + bsziz> 

其 中 ,有 两 个 自 变量 zx 和 zz ,最 高 次 为 2 。 

最 简单 的 多 项 式 是 二 次 多 项 式 , 其 中 一 元 二 次 多 项 式 的 方程 为 了 =a 十 bxi 十 box?。 
图 5-17 和 图 5-18 是 该 多 项 式 的 图 形 , 它 是 抛物 线 。 其 中 ,图 5-17 是 0,270 时 多 项 式 方程 
的 图 形 ,曲线 止 向 下 ,有 一 个 极 小 值 ; 图 5-18 是 p, <0 时 多 项 式 方程 的 图 形 ,曲线 是 向 上 ,有 
一 个 极 大 值 。 

y4 yi 


b>0 b,<0 














E 
"A 


A 5-17 b,—0 时 多 项 式 的 图 形 5-18 b,<0 时 多 项 式 的 图 形 
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5.4.2 多 项 式 回 归 实 例 


例 5.5 多 项 式 回归 求解 。 
表 5-5 是 某 曲 线 自 变量 > SAER y 的 数据 集 , 图 5-19 JA IH AP e ts y 的 散 点 图 ， 
试 求 出 zx 与 y 之 间 的 回归 关系 。 


表 5-5 x 与 y 的 数据 集 














y 
42.50 2.54 
41.01 1.81 
36.99 3.40 
37.50 3.00 
38.50 2.26 
38.01 3.00 
39.01 2.10 
42.01 2.35 
41.50 1.90 
39.50 1.83 
40.00 1.52 
43.01 2.90 
40.51 1.71 

4 
3.5 e 

3 e o e 
2.5 ° 

* i ? 
Sy. 2 
e. 
° .?* 

1.5 . 

l 
0.5 

0 

36 37 38 39 40 41 42 43 44 


5-19 x 与 y 的 散 点 图 


从 图 5-19 知 ,zx 与 y 之 间 的 关系 可 近似 用 一 个 一 元 二 次 多 项 式 表示 , 故 假设 + 与 y 
之 间 的 关系 表达 式 为 y 二 a 十 bz 十 bsx*。 这 里 仍然 采用 最 小 二 乘法 求解 参数 abi Hab, 








WEF ab X O, 352 * 6s a — biz; — boa! 分 别 对 < RI b, +K fii 
导 , 得 : 
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的 知 。 数据 分 析 与 数据 挖 所 






































291i —a— bız: bal) X(—1)=0 
= 
DAA a— biz: — bz?) X (一 z) 一 0 
= 
2316 a—bixi bai) X (— 31) = 0 
= 
化 简 得 : 

»» na — by Rum b; 53i 0 
e a = 
DEESSET 
i=1 i=l ici i=1 
Dy DIE b Ja? 3E 0 

将 式 (5-29) 看 成 是 关于 a、b M b, 的 三 元 一 次 方程 组 ， 


a = 271.600. b 


根据 表 5-4 求 得 的 多 项 式 回归 方程 为 


— 13. 3861. 








y — 269. 771 
多 项 式 方程 拟 合 优 度 检验 。 

首先 ,根据 表 5-4 求 得 > 一 2. 33。 
其 次 ,根据 式 (5-8) 和 式 (5-9) ,结合 


TSS = 216, — y?! = 4.2211 


ESS — 36 — y)* = 3.9641 


最 后 根据 式 (5-12) 求 得 R° = 





ESS_ 3.9641 
TSS 4.2211 


—0. 9391, 


R° 非常 接近 1 , 故 求 得 的 回归 方程 对 数据 的 拟 合 度 较 好 。 


多 项 式 方程 下 检验 。 
首先 ,根据 式 (5-11) 求 解 RSS. 
RSS = TSS — ESS 








4.2211 








然后 ,根据 式 (5-13) 求 解 五 值 。 
本 例 中 ,k= 二 2,n 二 13。 


F ESS/k 


3. 9641 


3. 9641/2 


13. 29404x + 0. 16484042? 








RSS/(n—k— 1) 


回归 方程 是 高 度 显著 的 。 


0.257/(13 一 2 一 1) 
假设 a 二 0.01, 查 下 分 布 临界 值 表 知 Foo (k.n—k—1) 


5.4.3 案例 分 析 : 使 用 Excel 实现 多 项 式 回 归 


805.6 多 项 式 回归 方程 求解 。 


K 5-4 中 数据 ,求解 TSS 和 ESS, 


0. 257 


77. 12 


(5-28) 


(5-29) 


代入 表 5-4 中 的 数据 ,求解 得 : 
b, = 0.16567 


=F, (2,10) 二 7.56 二 F。 故 该 
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使 用 表 5-4 中 的 数据 作为 实验 数据 ,以 z 为 自 变 量 ,y 为 因 变量 ,求解 > 与 工 之 间 的 多 
项 式 关系 ,实验 数据 共有 三 列 , 分 别 为 zzz 和 > 的 数据 值 。 实 验 环境 为 Excel 2013 ,使 用 
Excel 的 数据 分 析 库 进行 实验 。 

实验 步骤 如 下 。 

(D 启动 Excel ,首先 将 数据 输入 到 Excel, 选 择 “ 文 件 ”" 菜 单 ,如 图 5-20 所 示 。 
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39.5 1560.25 1.89 
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45,01 1849.86 2.9 
40.51 1641.06 — 1.11 
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5-20 ”实验 数据 





© 单 击 “ 选 项 ”按钮 ,如 图 5-21 所 示 。 
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图 5-21 选项 界面 


1065 数据 分 析 与 数据 挖 氢 


© 选择 “加 载 项 ?选项 ,如 图 5-22 所 示 。 
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图 5-22 “加 载 项 ”选项 


D 选择 “分 析 工 具 库 ”选项 ,然后 单 击 “ 转 到 (G...) "按钮 ,如 图 5-23 所 示 。 








d 
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图 5-23 ”选择 加 载 项 界面 


C» 选择 “分 析 工 具 库 ”, 然 后 单 击 “ 确 定 ” 按 钮 ,如 图 5-24 所 示 。 
© 选择 “数据 "选项 ,然后 选择 最 右边 的 “数据 分 析 ” 选 项 ,如 图 5-25 所 示 。 
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图 5-24 “加 载 宏 "界面 
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图 5-25 “数据 分 析 ” 选 项 


CD 选择 “回归 ”选项 ,然后 单 击 “ 确 定 ” 按 钮 ,如 图 5-26 所 示 。 

出 现 选择 Y 值 和 X 值 输入 区 域 的 选项 ,如 图 5-27 所 示 。 

选择 Y 值 的 输入 区 域 ,选中 Excel 文件 中 属于 Y 值 的 输入 数据 ,如 图 5-28 所 示 。 

O E.F X 的 输入 区 域 ,选中 Excel 文件 中 属于 X 值 的 输入 数据 ,如 图 5-29 Bron, 
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5-27 Y 值 和 X 值 输入 区 域 
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图 5-28 Y 值 的 输入 数据 
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D 数据 选择 完成 后 , 单 击 “ 确 定 ” 选 项 ,如 图 5-30 所 示 。 

O 多 项 式 回归 求解 结果 ,如 图 5-31 所 示 。 

设 所 求 的 多 项 式 为 y = az? +q bz + c, Ó. B] 5-31 得 ,对 于 Coefficient, 其 下 面 的 
Intercept 一 269.7711 ,所 求 值 即 为 多 项 式 中 的 c 值 , 即 c—269. 7711; 8 — ^ X Variable = 


sO: 数据 分 析 与 数据 挖 所 
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图 5-31 求解 结果 


— 13. 294, 所 得 值 为 多 项 式 的 一 次 项 系数 , 即 5 二 一 13. 294; 第 二 个 X Variable=0. 16484 ,所 
求 值 为 多 项 式 的 二 次 项 系数 , 即 a 一 0.16484。 由 此 得 到 多 项 式 表达 式 为 

y = 0.16484z’ — 13. 294x + 269. 7711 
所 得 结果 与 5. 4. 2 节 求 得 的 结果 基本 吻合 .证 明 求解 所 用 的 方法 正确 。 
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5.5 习题 


1. 简 述 回归 分 析 的 步骤 ,解释 什么 是 回归 差 、 残 差 和 总 离 差 ,以 及 三 者 之 间 的 关系 。 
2. 某 家 运输 公司 10 辆 汽车 的 运输 记录 如 表 5-6 所 示 , 显 示 的 是 运送 距离 (km) 和 运送 
时 间 ( 天 ) 的 关系 。 
表 5-6 ”运送 距离 与 运送 时 间 的 关系 


运送 距离 (km) 1215 550 920 825 215 170 480 1350 325 670 





运送 时 间 ( 天 ) 5.0 2.0 3.0 3.5 1.0 0.8 1.4 4.5 1.2 2.9 





CD 绘制 运送 距离 (x) 和 运送 时 间 (y) 的 散 点 图 。 

(2) 利用 最 小 二 乘法 求 出 回归 方程 ,并 解释 回归 系数 的 意义 。 
(3) 求解 决定 系数 R? ,说 明 回 归 曲 线 的 拟 合 度 程度 。 

3. = Hl y 有 以 下 数据 ,如 表 5-7 所 示 。 


表 5-7 x 与 y 的 关系 


£ 8 5 6 2 4 





y 70 60 50 30 40 


A) y=6. 4x4-17. 4, 
(2) y—6. 914-16. 8, 

求解 

(1) 和 (2) 是 关于 以 上 数据 的 两 个 回归 方程 , 试 比较 哪个 回归 方程 的 拟 合 效果 更 好 。 
4. 某 种 电视 机 的 销售 额 ( 万 元 ) 与 各 种 广告 费用 之 间 的 关系 如 表 5-8 所 示 。 


表 5-8 电视 机 销售 额 与 广告 费 的 关系 








销售 额 y( 万 元 ) 电视 广告 费用 n (万 元 ) 报纸 广告 费用 zz (万 元 ) 
96 5.0 1.5 
90 2.0 2.0 
95 4.0 1.5 
92 2.5 2.5 
95 3.0 3.3 
94 3.5 2.3 
94 2.5 4.2 
94 3.0 2.5 








求解 : 

CD 建立 合适 的 回归 方程 模型 并 求解 回归 方程 。 

(2) 求 出 决定 系数 R?。 

(3) 回归 方程 是 否 显著 ? 各 个 自 变 量 对 因 变量 是 否 有 显著 性 影响 ? 
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5. 多 元 线性 回归 模型 与 一 元 线性 回归 模型 有 哪些 区 别 ? 
6. 某 种 血 药 浓度 wyCg/ml) 与 服药 时 间 x(h) 之 间 的 关系 如 表 5-9 所 示 。 
35-9 血 药 浓度 与 服药 时 间 之 间 的 关系 
服药 时 间 (h) 1 2 3 4 5 6 7 8 9 





血 药 浓度 (g/ml) 21.89 | 47.13 | 61.86 | 70.78 | 72.81 | 66.36 | 50.34 | 25.31 3.17 


求解 : 
CD) 画 出 血 药 浓度 与 服药 时 间 之 间 的 散 点 图 。 
(2) 选择 合适 的 回归 模型 ,求解 回归 方程 。 
7. 某 种 肥料 施用 量 > 与 粮食 产量 y 之 间 的 关系 如 表 5-10 所 示 。 
表 5-10 肥料 使 用 量 与 粮食 产量 之 间 的 关系 
施用 量 0 24 49 73 98 147 196 245 294 342 





产量 33.46 | 34.76 | 36.06 | 37.96 | 41.04 | 40.09 | 41.26 | 42.17 | 40.36 | 42.73 


求解 : 
建立 一 元 二 次 多 项 式 回 归 方 程 ,试用 Excel 求解 该 回归 方程 。 
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随 着 人 们 生活 水 平 的 提高 .互联 网 和 电子 商务 领域 的 不 断 发 展 ,政府 和 企业 对 于 顾客 购 
买 行为 的 研究 越 来 越 重视 。 为 了 最 大 限度 地 实现 销售 增长 ,企业 需要 增加 顾客 购买 次 数 和 
顾客 购物 车 中 的 商品 件数 ,因此 除了 提高 商品 质量 外 ,挖掘 顾客 购买 信息 中 的 频繁 模式 可 使 
企业 深入 了 解 顾客 的 实时 需求 ,并 根据 得 到 的 频繁 模式 对 商品 数量 .种 类 商品 摆 放 位 置 、 促 
销 手段 等 销售 方式 进行 改变 ,企业 可 以 以 此 获得 更 大 的 利润 。 

本 章 介绍 频繁 模式 和 关联 规则 的 相关 概念 ,并 通过 实例 介绍 常用 的 频繁 模式 挖掘 算法 
Apriori 和 FP-growth, 然 后 引入 解决 频繁 项 集 过 大 问题 的 方法 ,最 后 介绍 对 所 得 到 的 关联 
模式 进行 评估 的 方法 。 


6.1 概述 


美国 著名 的 沃尔玛 超市 发 现 啤酒 与 尿布 总 是 共同 出 现在 购物 车 中 ,沃尔玛 超市 经 过 分 
析 发 现 , 许 多 年 轻 的 父亲 在 下 班 之 后 经 常 要 购买 婴儿 的 尿布 ,而 在 购买 尿布 的 同时 ,他 们 往 
往 会 顺手 购买 一 些 啤 酒 。 因 此 ,沃尔玛 超市 将 啤酒 与 尿布 放 在 相近 的 位 置 ,方便 顾客 购买 ， 
同时 也 明显 提高 了 销售 额 。 

上 述 就 是 一 个 典型 的 频繁 模式 案例 。 频 繁 模式 是 指 频 繁 出 现在 数据 集中 的 模式 ,这 些 
模式 包括 项 集 、 子 序列 和 子 结 构 等 。 研 究 频 繁 模式 的 目的 是 得 到 关联 规则 和 其 他 联系 ,并 在 
实际 中 应 用 这 些 规 则 和 联系 。 

图 6-1 是 一 个 购物 车 的 例子 。 购 物 车 中 包括 油 、 牛 奶 `. 沙 丁 鱼 痪 面包 香蕉、 葡萄 、 洗 衣 
液 等 商品 ,展示 了 顾客 会 同时 购买 哪些 商品 。 由 每 个 顾客 在 不 同时 间 、 不 同 地 点 购买 的 商品 
所 组 成 的 购物 车 包含 了 许多 信息 ,而 在 分 析 无 数 个 类 似 于 图 6-1 所 示 的 购物 车 之 后 ,就 能 够 
得 到 频繁 出 现在 顾客 购物 车 中 的 商品 组 合 , 进 而 挖掘 出 有 趣 的 模式 。 

购买 了 油 、 牛 奶 、 面 包 、 


AE W AKR E 
应 该 有 哪些 商品 ? 





面包 和 牛奶 共同 出 现在 购 
物 车 中 ， 这 代表 了 什么 ? 





买 了 这 么 多 鱼子 桨 ， 
是 因为 促销 吗 ? 
图 6-1 购物 车 商品 
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频繁 模式 将 多 次 重复 出 现 的 关联 从 繁杂 的 数据 中 提取 出 来 ,而 购物 车 分 析 、 信 用 卡 分 
析 、 银 行 产 品 分 析 、 保 险 索赔 分 析 和 患者 就 诊 分 析 则 是 频繁 模式 最 广泛 的 应 用 模式 。 

与 这 些 分 析 关 系 最 密切 的 是 关联 分 析 , 如 通过 解析 购物 车 中 是 否 有 某 个 商品 、 购 买 的 商 
品 供 几 个 人 使 用 、 为 什么 购买 此 商品 、 为 什么 不 购买 男 一 件 商品 等 顾客 购物 行为 ,得 到 顾客 
购买 行为 背后 所 隐藏 的 含义 ,并 自动 产生 相应 的 关联 规则 ,为 商务 过 程 提供 帮助 。 至 于 得 到 
的 关联 规则 是 否 有 用 , 则 需要 人 工 判定 。 


6.1.1 案例 分 析 


例 6.1 购物 车 分 析 。 
表 6-1 给 出 了 某 商店 的 事务 数据 ,其 中 每 行 对 应 一 个 事务 ,每 一 行 的 Items 所 包含 的 内 
容 是 一 组 商品 在 一 次 购物 中 同时 购买 的 组 合 。 
表 6-1 某 商店 的 事务 数据 


TID Items 

牛奶 ,面包 ,麦片 
牛奶 ,面包 ,麦片 ,鸡蛋 
牛奶 ,面包 ,黄油 ,麦片 
糖 ,鸡蛋 

黄油 ,麦片 

糖 ,鸡蛋 





oO m & wuye 





从 表 6-1 可 以 发 现 { 牛 奶 ,面包 ,麦片 }、{ 牛 奶 ,面包 }、{ 牛 奶 ,麦片 }、{ 麦 片 ,面包 } 组 合 出 
现 了 3 次 ,{ 糖 ,鸡蛋 } 组 合 出现 了 2 次 ,其 他 的 组 合 都 只 出 现 了 1 次。 如果 认定 出 现 3 次 或 
者 3 次 以 上 的 组 合 是 比较 频繁 的 组 合 ,那么 可 以 得 出 “如 果 一 位 顾客 购买 了 面包 ,那么 他 很 
有 可 能 会 购买 牛奶 ”或 者 “如 果 一 位 顾客 购买 了 牛奶 ,那么 他 很 有 可 能 会 购买 面包 ?这 样 的 关 
联 规则 。 根 据 这 些 关 联 规则 ,商业 企业 就 可 以 将 面包 和 和 牛奶 摆 放 得 近 一 些 , 以 便 顾 客 可 以 方 
便 地 购买 该 商品 组 合 , 或 者 将 面包 和 和 牛奶 摆 放 在 商品 架 的 两 端 ,以 便 使 顾客 购买 商品 架 中 的 
其 他 商品 。 


6.1.2 相关 概念 
1. 项 集 


包含 0 个 或 者 多 个 项 的 集合 称 为 项 集 。 任 何 给 定 的 事务 数据 都 包含 许多 项 集 , 而 项 集 
有 时 会 提供 相当 多 的 规则 。 如 果 一 个 项 集 包含 & 个 项 , 则 称 它 为 上 项 集 。 

例 6.2 项 集 。 

使 用 表 6-1 的 事务 数据 ,TID=1 的 事务 二 (牛奶, 面包, 麦片} 为 3 DRE ,TID=2 的 事 
务 t,= 二 {牛奶 ,面包 ,麦片 ,鸡蛋 }) 为 4 项 集 。 


2. 关联 规则 


关联 规则 的 概念 由 Agrawal、Imielinski 和 Swami 在 1993 年 提出 ,定义 如 下 。 
设 I= (siz ,ia,… ,i,) 是 购物 车 数据 中 所 有 项 的 集合 .T 二 {4 ,ts ,ts，…,t,) 是 所 有 事务 
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的 集合 ,其 中 每 个 事务 c 都 有 一 个 独一无二 的 标识 符 TID, 

关联 规则 是 形 如 XSY WAER HP X 称 为 规则 前 件 ,Y 称 为 规则 后 件 , 并 且 X Y 
满足 : X 和 YY 是 了 的 真子 集 ,并 且 X 和 Y 的 交集 为 空 集 。 

例 6.3 关联 规则 。 

对 于 “如 果 一 个 顾客 购买 了 面包 ,那么 他 很 有 可 能 会 购买 牛奶 ”这 样 的 表述 ,可 以 得 出 关 
联 规则 : 购买 面包 之 购买 牛奶 [支持 度 =50%% . ofi E — 100 74 ]. 

在 典型 情况 下 ,如 果 关 联 规则 满足 最 小 支持 度 阔 值 和 最 小 置信 和 度 阔 值 ,关联 规则 被 认为 
是 有 用 的 。 


3. 支持 度 


支持 度 是 指 事务 中 同时 包含 集合 A 和 集合 B 的 百分比 。 支 持 度 揭示 了 A 与 B 同时 出 
现 的 概率 。 如 果 A 与 B 同时 出 现 的 概率 小 , 则 说 明 A 与 B 关系 不 大 ;如 果 A 与 B 同时 出 现 
得 非常 频繁 , 则 说 明 A 与 已 相关。 而 最 小 支持 度 则 是 由 用 户 定 义 衡量 支持 度 的 一 个 阔 值 ， 
表示 该 规则 在 统计 意义 上 必须 满足 支持 度 的 最 低 重要 性 。 关 联 规则 的 支持 度 公式 如 式 
(6-1) 所 示 。 

support(A=B) = P(A U B) (6-D 


4. 置信 度 


置信 度 是 指 事务 中 同时 包含 集合 A 与 B 的 事务 数 与 包含 集合 A 的 事务 数 的 百分比 。 
置信 度 揭示 了 A 出 现时 ,B 也 出 现 的 可 能 性 的 大 小 。 如 果 和 置信 和 度 为 100%, 则 说 明 A 与 B 
完全 相关 。 如 果 置 信和 度 太 低 , 则 说 明 A 的 出 现 与 B 是 否 出 现 的 关系 不 大 。 而 最 小 置信 度 则 
是 由 用 户 定义 衡量 置信 和 度 的 一 个 靖 值 ,表示 该 规则 在 统计 意义 上 必须 满足 置信 度 的 最 低 重 
要 性 。 置 信 度 公式 如 式 (6-2) 所 示 。 

confidence(A=B) = P(B | A) (6-2) 

例 6.4 支持 度 和 置信 和 度 。 

通过 支持 度 和 置信 和 度 可 以 表示 出 具体 的 关联 规则 。 例 如 ,A 二 B[ 支 持 度 二 20%; 管 信 
度 王 60%%]。 该 关联 规则 的 支持 度 为 20%% ,说 明 有 20% 的 事务 同时 出 现 了 A 55 B BL 6 E 
60%, 则 说 明 有 60% 包 含 A 的 事务 同时 也 包含 了 B。 假 设 最 小 支持 度 为 20%, 最 小 置信 和 度 
2H 50 26 , 则 该 关联 规则 满足 最 小 置信 和 度 和 最 小 支持 度 阔 值 ,因此 被 认为 是 有 用 的 ,而 这 些 效 
值 可 以 人 为 设 定 。 


5. 频繁 项 集 


如 果 某 一 个 项 集 了 的 支持 度 满足 了 预定 的 最 小 支持 度 国 值 , 则 称 I 为 频繁 项 集 。 一 个 
频繁 项 集 的 所 有 子 集 也 都 是 频繁 的 。 当 数据 集 很 大 时 ,通常 会 挖掘 出 大 量 的 频繁 项 集 ,计算 
和 存储 起 来 就 比较 困难 。 

例 6.5 频繁 项 集 。 

使 用 表 6-1 的 事务 数据 , 设 最 小 支持 度 冰 值 为 30% ,那么 项 集 { 面 包 , 麦 片 } 的 支持 度 为 
50%% 二 30%% ,所 以 该 项 集 是 频繁 项 集 。 

















dis 
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6. 强 关联 规则 


图 6-2 是 项 集 1 二 {a,b,c,d,e} 的 项 集 格 ,可 以 看 出 项 集 探索 空间 可 能 是 指数 规模 。 通 
常 一 个 包含 个 项 的 项 集 可 能 产生 25 — 1 个 频繁 项 集 ,可 能 产生 3 一 2 十 1 个 规则 。 即 使 
对 于 小 数据 来 说 ,产生 的 频繁 项 集 和 规则 都 相当 多 ,其 中 大 部 分 规则 可 能 是 低 效 或 者 无 用 
的 。 因 此 ,关联 分 析 需 要 从 大 量 可 能 的 规则 中 , 按 条 件 挑选 出 最 好 的 、 少 量 的 规则 。 传 统 的 
关联 分 析 度 量 包括 支持 度 、 置 信和 度 和 提升 度 , 而 从 事务 集合 中 挖掘 出 同时 满足 最 小 支持 度 和 
最 小 置信 和 度 阔 值 要 求 的 所 有 关联 规则 被 称 为 强 关 联 规则 。 


null ) 





abcde 


图 6-2 项 集 工 的 项 集 格 


例 6.6 强 关联 规则 。 

假设 最 小 支持 度 冰 值 为 30%% + dezh t (ñ BE BJ 8 29 70 26 ,而 关联 规则 : 购买 面包 之 购买 
牛奶 [支持 度 二 50% ,置信 度 王 100%%] 的 支持 度 和 置信 度 都 满足 条 件 , 则 该 规则 为 强 关 联 
规则 。 


6.1.3 先 验 性 质 


为 了 得 到 有 用 的 关联 规则 ,大 多 数 关联 规则 的 挖掘 算法 采用 的 策略 是 将 其 分 解 为 以 下 
TES. 

CD 根据 最 小 支持 度 阔 值 , 找 出 数据 集中 所 有 的 频繁 项 集 。 

© 挖掘 出 频繁 项 集中 满足 最 小 支持 度 和 最 小 置信 和 度 阔 值 要求 的 规则 ,得 到 强 关联 
规则 。 

© 对 产生 的 强 关 联 规则 进行 剪 枝 , 找 出 有 用 的 关联 规则 。 

通常 ,产生 频繁 项 集 所 需 的 计算 开销 远大 于 产生 规则 所 需 的 计算 开销 ,因此 需要 降低 频 
繁 项 集 的 计算 复杂 度 ,而 先 验 性 质 就 是 一 种 不 用 计算 支持 度 而 删除 某 些 候选 项 集 的 有 效 
方法 。 

先 验 原理 : 如 果 一 个 项 集 是 频繁 的 ,那么 它 的 所 有 子 集 也 是 频繁 的 。 
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在 图 6-2 中 ,假设 项 集 {a,b,c} 是 频繁 项 集 ,那么 包含 它 的 事务 也 包含 它 的 子 集 {a,b)， 
{asc)},{b,c},{a),{b),{c) ,而 它 的 子 集 的 支持 度 大 于 等 于 它 本 身 的 支持 度 ,所 以 它 的 所 有 
子 集 也 是 频繁 的 。 反 之 ,如 果 {a,b,c} 不 是 频繁 项 集 , 那 么 所 有 包含 {a,b,c}) 的 项 集 一 定 不 是 
频繁 的 。 


6.2 关联 模式 评估 


在 实际 应 用 中 ,需要 处 理 的 数据 集 的 数据 量 和 数据 维 数 往往 大 得 超 乎 估计 ,而 运用 频繁 
模式 挖掘 所 得 到 的 规则 中 通常 包含 了 大 量 用 户 并 不 感 兴趣 的 规则 , 当 最 小 置信 度 浆 值 和 支 
持 度 冰 值 比较 小 的 时 候 , 这 种 情况 尤为 严重 ,因此 需要 一 组 广 受 认 同 的 评价 关联 模式 质量 的 
标准 。 本 节 介 绍 支持 度 -置信 度 框架 ,然后 引入 相关 性 分 析 , 最 后 讨论 比较 有 效 的 模式 评估 
度量 。 


6.2.1 支持 度 -置信 和 度 框架 


频繁 模式 通常 基于 以 下 假设 : 涉及 相互 独立 的 项 或 覆盖 少量 事务 的 模式 是 用 户 不 感 兴 
趣 的 模式 ,而 这 些 模式 通常 用 客观 兴趣 度 度 量 进行 评判 。 客 观 兴 趣 度 度量 不 依赖 领域 ,往往 
根据 事务 数据 推导 出 来 的 统计 量 进行 评判 ,应 用 较为 广泛 的 有 支持 度 、 置 信和 度 和 相关 性 。 而 
支持 度 -置信 和 度 框架 认为 ,如 果 关 联 规则 同时 满足 最 小 支持 度 和 最 小 置信 度 , 则 此 关联 规则 
为 强 关联 规则 。 

例如 ,分 析 喜 好 两 款 不 同 手机 的 用 户 之 间 的 关系 ,使 用 表 6-2 的 汇总 数据 , 设 最 小 支持 
度 阔 值 为 0. 3, 最 小 置信 度 阔 值 为 0. 6。 


表 6-2 1000 个 人 的 手机 偏好 





买 苹果 手机 不 买 苹果 手机 行 和 
买 小 米 手机 400 350 750 
不 买 小 米 手机 200 50 250 
列 和 600 400 1000 


由 于 关联 规则 { 小 米 } 一 { 苹 果 } 的 支持 度 为 400/1000=0. 4>0. 3, 置 信 度 为 400/600 一 
0.66 二 0.6, 因 此 ,可 以 认为 { 小 米 } 僵 { 苹 果 } 是 强 关 联 规则 。 

但 是 在 事实 上 ,小 米 手机 和 苹果 手机 是 相互 排斥 的 ,尽管 该 规则 具有 很 高 的 置信 和 度 和 支 
持 度 ,但 实际 上 却 是 误导 。 支 持 度 的 计算 会 导致 许多 支持 度 较 低 但 是 潜在 有 意义 的 模式 被 
删除 ,同时 ,置信 度 则 只 考虑 关联 规则 中 部 分 项 集 的 支持 度 ,但 却 忽略 了 其 他 项 集 的 关联 性 ， 
因此 需要 使 用 有 效 的 方法 代替 支持 度 -置信 度 框 架 。 


6.2.2 相关 性 分 析 


由 于 支持 度 -置信 度 框 架 的 种 种 局 限 性 ,可 以 使 用 提升 度 等 相关 性 度量 对 支持 度 -置信 
度 框架 进行 扩充 。 令 A 和 B 表示 不 同 的 项 集 ,P(* ) 表 示 项 集 * 在 总 体 数据 集中 的 出 现 
概率 。 
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1. 提升 度 


支持 度 -置信 度 框 架 中 的 置信 度 忽略 了 规则 后 件 中 项 集 的 支持 度 ,而 提升 度 则 有 助 于 
解决 这 个 问题 。 

根据 统计 学 定义 ,如 果 项 集 A 和 项 集 B 的 交集 P(AUB)=P(CA)P(CB) ,那么 项 集 A 和 
项 集 B 是 相互 独立 的 ,否则 两 者 是 相互 依赖 的 。 项 集 A 和 项 集 B 的 提升 度 定 义 如 式 (6-3) 
所 示 。 


PCA U B) 
PCA)PCB) 


如 果 A MB 的 提升 度 的 值 等 于 1, 则 说 明 A 和 B 相互 独立 ;如 果 A 和 B 的 提升 度 的 值 
大 于 1, 则 说 明 A 和 B 正 相关 ;如 果 AMB 的 提升 度 的 值 小 于 1, 则 说 明 A MB 负 相 关 。 
例 6.7 提升 度 。 


使 用 表 6-2 的 数据 可 以 得 出 ,{ 小 米 ) 二 {苹果} 的 提升 度 为 6 和 元 一 0. 89, 因 此 可 以 
看 出 小 米 手 机 和 苹果 手机 是 负 相关 的 。 
2. 杠杆 度 


杠杆 度 和 提升 度 的 含义 相近 ,其 定义 如 式 6-4 所 示 。 
leverage(A.B) = P(A U B) — P(A)P(B) (6-4) 

如 果 A 和 B 的 杠杆 度 的 值 等 于 0, 则 说 明 A 和 B 相互 独立 ;如 果 A 和 B 的 杠杆 度 的 值 
大 于 0, 则 说 明 A MB 正 相关 ,并 且 杠 杆 度 越 大 ,说 明 A 和 B 的 关系 越 密切 ;如 果 A 和 B 的 
杠杆 度 的 值 小 于 0, 则 说 明 A 和 B 负 相 关 。 

例 6.8 FAFE. 

使 用 表 6-2 的 数据 可 以 得 出 ,{ 小 米 } 全 { 芋 果 } 的 杠杆 度 为 0.4 一 0.6X0.75 一 一 0.05, 因 
此 也 可 以 看 出 小 米 手机 和 苹果 手机 是 负 相关 的 。 


3. 皮尔 森 相 关系 数 


另 一 种 相关 性 分 析 常用 的 度量 是 皮尔 森 相关 系数 。 皮 尔 森 相关 系数 能 够 反映 两 个 变量 
的 相似 程度 ,皮尔 森 相 关系 数值 越 大 ,表明 两 个 变量 的 相关 性 越 强 。 对 于 二 元 变量 ,皮尔 森 
相关 系数 的 定义 如 式 (6-5) 所 示 。 
P(A U B)P(A U B)— P(A UB P(A U B) 
JPPA PI PBS 

皮尔 森 相 关系 数 的 取 值 区 间 是 [一 1,1], — 1 说 明 两 个 变量 完全 负 相 关 ,1 说 明 两 个 变量 
完全 正 相关 。 

例 6.9 皮尔 森 相 关系 数 。 

使 用 表 6-2 的 数据 可 以 得 出 , 小米 和 苹果 的 皮尔 森 相关 系数 为 
(0.4X0.05 0.240.399... (2357, 说 明 两 者 在 一 定 程度 上 负 相 关 。 
J0. 1X0. 6X0. 15X0. 25 

但 是 皮尔 森 相 关系 数 也 有 其 局 限 性 。 当 样本 呈 比 例 变化 时 ,皮尔 森 相关 系数 不 能 保持 
不 变 。 皮 尔 森 相关 系数 不 仅 关注 了 项 在 事务 中 同时 出 现 的 情况 ,还 将 项 在 事务 中 不 出 现 的 


lift(A,B) = (6-3) 








(6-5) 
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情况 也 考虑 在 其 中 , 视 两 者 的 权 值 相等 。 
4. IS 度量 


当 两 种 不 同 关 联 的 置信 和 度 和 提升 度 都 相近 时 ,可 以 使 用 IS 度量 进行 分 析 。IS 度量 通 
常用 于 处 理 非 对 称 二 元 变量 ,TS 度量 的 定义 如 式 (6-6) 所 示 。 


P(A U B) 
IS(A,B) = 一 一 一 一 一 (6-6) 
VP(A)P(B) 
IS 度量 的 数值 越 大 ,说 明 A 和 B 之 间 的 关联 越 强 。 
例 6.10 IS 度量 。 
使 用 表 6-2 的 数据 可 以 得 出 ,小 米 和 苹果 的 IS HERE — C —  — 0. 5963, 说 明 小 


V0. 757X0. 6 
米 手 机 和 苹果 手机 的 关联 一 般 。 


5. 确信 和 度 


确信 度 能 够 度量 一 个 规则 的 强度 ,同时 衡量 A 和 了 之 间 的 独立 性 。 确 信 度 定义 如 式 
(6-7) 所 示 o 
P(A)P(B) 


VP(AUB) 
确信 度数 值 越 大 ,说 明 A 和 B 的 关系 越 紧 密 。 
例 6.11 确信 度 。 


使 用 表 6-2 的 数据 可 以 得 出 ,小 米 手机 和 苹果 手机 的 确信 度 为 -6 一 0.75, 说 明 
小 米 手机 和 苹果 手机 的 关系 相当 紧密 。 
6.2.3 模式 评估 度量 


不 包含 任何 考察 项 集 的 事务 被 称 为 零 事 务 。 提 升 度 、 皮 尔 森 相关 系数 等 度量 在 很 大 程 
度 上 受 零 事务 的 影响 ,因此 它们 识别 关联 模式 关联 关系 的 能 力 较 差 。 因 此 ,在 此 提出 几 种 不 
受 零 事务 影响 的 零 不 变 的 度量 。 


1. 全 置信 度 


Conviction (A.B) = (6-7) 


全 置信 度 反 映 了 规则 ASB 和 规则 也 =A 的 最 小 置信 度 。 全 置信 度 定义 如 式 (6-8) 
所 示 。 


P(A U B) 
max{ P(A).P(B)} 


对 于 项 集 A 和 B, 全 置信 和 度 越 大 ,说 明 规 则 A= B 和 规则 BSA 的 最 小 置信 度 越 大 , 那 
么 A 和 B 关系 越 紧 密 , 反 之 A 和 B ŽARA., 
例 6.12 全 置信 度 。 
0.4 


使 用 表 6-2 的 数据 可 以 得 出 ， 小 米 手机 和 苹果 手机 的 全 置信 和 度 为 co.75.0-6) 一 
0.553, 则 小 米 手 机 和 苹果 手机 之 间 关 系 的 最 小 置信 度 为 0. 5333, 可 以 说 明 小 米 手机 和 苹果 


all conf (A.B) = = min{P(A | B), P(B | A)) (6-8) 
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手机 的 关系 一 般 。 
2. 极 大 置信 和 度 


极 大 置信 度 反 映 了 规则 ASB 和 规则 BSA 的 最 大 置信 和 度 。 极 大 置信 度 的 定义 如 
式 (6-9) 所 示 。 
max conf (A.B) = max{P(A | B),P(B | A)) (6-9) 
对 于 项 集 A 和 B, 极 大 置信 和 度 越 大 ,A 和 B 关系 越 紧密 。 
例 6.13 极 大 置信 和 度 。 
使 用 表 6-5 的 数据 可 以 得 出 ,小 米 手 机 和 苹果 手机 的 极 大 置信 度 为 max 


(dro o. 667, 说 明 两 者 可 能 关系 一 般 。 


3. Kulczynski 度量 


Kulczynski 度量 表示 在 项 集 A 存在 的 情况 下 项 集 B 也 存在 的 条 件 概 率 和 在 项 集 B f£ 
在 的 情况 下 项 集 A 也 存在 的 条 件 概率 之 和 的 平均 值 。Kulczynski 度量 的 定义 如 式 (6-10) 
所 示 。 


Kule(A,B) = Lea | B)+ P(B | AD (6-10) 


对 于 项 集 A 和 已 ,Kulczynski 度量 越 大 ,说 明 平均 可 信 程 度 越 大 ,那么 A 和 B 关系 越 紧 

密 。 
例 6.14 Kulczynski 度量 。 

使 用 表 6-2 的 数据 可 以 得 出 ,小 米 手 机 和 苹果 手机 的 Kulczynski 度量 为 


1(0.4 _ 0.4)_ ; 
zo 0 )-o snmma —m. 


6.3 Apriori 算法 


发 现 频繁 项 集 最 简单 的 方法 就 是 穷 举 法 ,即将 所 有 满足 条 件 的 项 集 找 出 来 ,构成 候选 项 
集 , 然 后 根据 相应 条 件 筛选 出 频繁 项 集 。 而 穷 举 法 中 最 具 影响 力 的 挖掘 频繁 项 集 的 算法 则 
是 Apriori 算法 。 本 节 主 要 介绍 Apriori 算法 的 基本 思想 ,根据 Apriori 算法 的 结果 得 出 相 
应 的 关联 规则 ,然后 使 用 Weka 进行 Apriori 算法 操作 。 


6.3.1 Apriori 算法 分 析 


Agrawal 和 Srikant 在 1994 年 提出 了 使 用 频繁 项 集 性 质 的 先 验 知识 的 Apriori 算法 ,该 
算法 应 用 基于 支持 度 的 剪 枝 技术 ,用 来 控制 候选 项 集 的 指数 增长 ,其 核心 思想 是 通过 候选 集 
生成 和 向 下 封闭 检测 两 个 阶段 从 而 挖掘 频繁 项 集 。Apriori 算法 使 用 逐 层 搜索 的 迭代 方法 ， 
随 着 的 递增 不 断 寻 找 满足 最 小 支持 度 阔 值 的 “& 项 集 ”, 因 此 它 的 总 迭代 次 数 等 于 人 为 设 
定 的 频繁 项 集 的 极 大 长 度 加 一 次 。Apriori 算法 的 第 次 迭代 从 第 一 1 次 迭代 的 结果 中 查 
找 频繁 项 集 ,每 一 次 迭代 都 需要 扫描 一 次 数据 库 。 

Apriori 算法 的 伪 代 码 如 下 。 
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输入 : 
D: 事 务 数据 集 ; 
Min sup: 最 小 支持 度 计数 阔 值 
输出 : 
D 中 的 频繁 项 集 
Apriori 算法 : 
L. =find frequent 1- itemsets (D); 
k=2; 
for(;L-; !=null;k+ +) { 
C,-apriori gen(L.- 1); 
for each 事务 t€ D( // 扫 描 D 用 于 计数 
C= subset (Ce, t); // 得 到 七 的 子 集 , 用 于 候选 
for each 候选 cE c; 
C.count++; 
} 
L= (c€ Cl c.count»-min stp) 
) 
return I-L,; 


Procedure apriori gen(L., :frequent (k- 1) - itemsets): 
for each iR 1, € Le 
for each Ji 1, € L- 
if (lı [1]= 1: [1])^ Qa [2] 1; [2]) ~ (lı [k= 2]- 1; [k- 2]) ^ (l [k- 1]- 1; [k- 1]) 
then( 
SLk // 连 接 步 :产生 候选 
if has infrequent subset (c,L..,)then 
delete c; // 剪 枝 步 :删除 非 频 繁 的 候选 
else add c to C,; 
} 


return ©; 


procedure has infrequent subset : 
I. frequent (k- 1) - itemset // 使 用 先 验 知识 
for each (k- 1)- subset s of c 
ifs€ L.then 
return TRUE; 
return FALSE; 


Apriori 算法 的 实现 步骤 如 下 。 

(D 连接 步 。 算 法 初始 设置 二 1, 从 数据 库 中 找到 所 有 的 项 候选 集 L, ,然后 上 增加 1; 
4 RAL 时 ,每 次 连接 步 都 使 用 前 一 次 迭代 中 的 所 有 项 L; 的 相互 连接 构造 频繁 & 项 集 C, = 
L,b 4L, 直 到 等 于 频繁 项 集 的 极 大 长 度 。 

© 前 枝 步 。 根 据 最 小 移 信 和 度 国 值 ,按照 先 验 原 理 对 得 到 的 项 候选 集 L, 进 行 前 枝 , 支 
持 度 小 于 最 小 置信 和 度 阔 值 的 & 项 集会 被 剪除 .只 保留 支持 度 大 于 最 小 置信 度 阔 值 的 频繁 帮 
项 集 C:。 如 果 某 一 频繁 ME C, 的 支持 度 小 于 最 小 置信 和 度 阔 值 ,那么 它 的 所 有 真 超 项 集 
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BJ Sc FERES F e E s EE BB , Br DÀ 2 i k 项 集 和 它 的 所 有 真 超 项 集 都 不 是 频繁 项 集 ， 
从 而 在 以 后 的 迭代 步骤 中 不 予 考虑 。 
例 6.15 Apriori 算法。 
假设 使 用 表 6-2 的 事务 数据 ,该 数据 库 具 有 9 个 事务 , 设 最 小 支持 度 为 2, 频 繁 项 集 的 极 
大 长 度 为 3。 试 使 用 Apriori 算法 挖掘 表 6-3 的 事务 数据 中 的 频繁 项 集 。 
表 6-3 某 商店 的 详细 事务 数据 
TID Items 








o 0 — 0 m Ë @ t = 
El 

n 3 x m” 3 x U 
a 
Ji 
mE 
E 


O 设置 k= 二 1, 扫 描 该 数据 库 , 统 计 出 所 有 的 项 集 , 即 1 项 候选 集 Li: 

{牛奶 ; 6, 面 包 : 7, 可 乐 : 6, 鸡 蛋 : 2, 麦 片 : 4). 

© 对 已 进 行 剪 枝 ,因为 最 小 支持 度 为 2, 将 支持 度 小 于 2 的 项 集 全 部 剪除 , 剩 下 即 为 频 
繁 1 项 集 C,: { 牛 奶 : 6, 面 包 : 7, 可 乐 : 6, 鸡 蛋 : 2, 麦 片 : 4} ,增加 1。 

© 统计 Ci 中 的 所 有 项 组 成 的 2 项 候选 集 Lo: 

{{ 牛 奶 ,面包 }: 4, {牛奶 , 可 乐 }: 4, {牛奶 , 鸡 蛋 } : 1, {牛奶 , 麦 片 ); 2, {面包 ,可 乐 }: 4， 
{面包 ,鸡蛋 }: 2, {面包 ,麦片 )}: 4,{ 可 乐 ,鸡蛋 }: 0,{ 可 乐 ,麦片 }; 1,{ 鸡 蛋 ,麦片 }: 2) 。 

CD 根据 最 小 支持 度 ,将 支持 度 小 于 2 的 项 集 全 部 剪除 , 剩 下 的 2 项 频繁 集 C, : 

{{ 牛 奶 ,面包 ): 4, {牛奶 ,可 乐 }: 4,{ 牛 奶 ,麦片 }: 2,{ 面 包 , 可 乐 ): 4, {面包 ,鸡蛋 ) : 2, 
{面包 ,麦片 )}: 4,{ 鸡 蛋 ,麦片 }: 2),k 增 加 1。 

统计 C* 中 的 所 有 项 组 成 的 3 项 候选 集 Ls: 

{{ 面 包 , 可 乐 ,麦片 ); 1,{ 面 包 , 可 乐 .牛奶 ) : 2,{ 面 包 , 可 乐 , 鸡 蛋 }: 0, {面包 ,麦片 , 牛 
8): 2,{ 面 包 , 麦 片 ,鸡蛋 }: 2, {可乐 , 麦 片 ,牛奶 }: 0,{ 可 乐 , 麦 片 ,鸡蛋 }: 0,{ 麦 片 ,牛奶 ， 
WE): 1}。 

© 将 支持 度 小 于 2 的 项 集 全 部 剪除 。 因 为 在 工 ,到 Cs 的 过 程 中 所 去 掉 的 项 集 的 真 超 项 
集 出 现在 Ls 中 ,因此 将 之 全 部 去 掉 , 剩 下 的 3 项 频繁 集 组 成 C. 

{{ 面 包 , 可 乐 ,牛奶 }: 2,{ 面 包 , 麦 片 ,牛奶 } : 2,{ 面 包 , 麦 片 ,鸡蛋 }: 2) ,k 增加 1。 

CD 因为 已 经 大 于 频繁 项 集 的 极 大 长 度 3, 算 法 终止 ,C; 为 频繁 项 集 。 

具体 过 程 如 图 6-3 所 示 。 

关联 规则 的 生成 过 程 包括 以 下 步骤 。 

CD 对 所 有 频繁 项 集 C 构造 类 似 于 A 过 B 的 所 有 可 能 的 非 空子 集 E。 

© 统计 EE 中 B 只 包含 一 个 项 的 非 空子 集 的 置信 和 度 ,如 果 大 于 最 小 置信 和 度 阅 值 , 则 输出 
该 规则 。 
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图 6-3 Apriori 算法 的 具体 实现 过 程 


© 统计 EE 中 B 只 包含 两 个 项 的 非 空 子 集 的 置信 度 , 如 果 大 于 最 小 置信 度 阔 值 , 则 输出 
该 规则 。 
© 直到 统计 EE 中 B 包含 |C| 一 1 项 的 非 空 子 集 的 置信 和 度 , 如 果 大 于 最 小 置信 和 度 阔 值 ， 
则 输出 该 规则 。 
在 例 6. 15 中 ,对 于 Cs 可 以 推导 出 非 空 子 集 : 
{{ 牛 奶 },{ 面 包 } , {可乐 }, {鸡蛋 }, {麦片 }, {牛奶 ,面包 }, {牛奶 ,可 乐 }, {面包 ,可 乐 }， 
{牛奶 ,麦片 }, {面包 ,麦片 }) , {面包 ,鸡蛋 } , {麦片 ,鸡蛋 }}。 
所 有 频繁 项 的 置信 度 如 下 : 
{ 和 牛奶 } 之 { 面 包 , 可 乐 } ,置信 和 度 = 2/6 = 33% 
{ 面 包 } 之 { 和 牛奶 ,可 乐 } ,置信 和 度 = 2/7 = 29% 
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^UE SEE = 2/6 = 66% 
鸡蛋 } 全 { 面 包 , 麦 片 } ,置信 度 = 2/2 = 100% 
En ch sii epis = p/4 = 


} ,置信 和 度 = 2/4 = 


牛奶 ,可 乐 i 置信 和 度 = 2/4 = 
UFU ,置信 度 = 2/4 = 


面包 ,可 乐 
牛奶 ,面包 


{可 
{ 
{ 
{ 牛 奶 ihi en) 
{ 
{ 
{ 
{牛奶 ,麦片 


在 实际 应 用 中 ,Apriori 算法 适用 于 交叉 销售 的 场景 ,如 有 人 打算 购买 飞机 票 ， 
规则 “机 票 全 酒店 ”, 那 么 可 以 根据 机 票 的 目的 地 推荐 酒店 。 此 外 ,Apriori 算法 也 可 用 于 开 
发 个 性 化 电子 商务 推荐 系统 ,首先 得 到 用 户 在 一 定时 间 段 内 购买 的 所 有 商品 ,根据 相应 的 关 
联 规则 ,预测 用 户 感 兴趣 的 商品 并 除去 用 户 已 经 购买 过 的 商品 ,然后 按照 置信 度 进 行 排序 ， 


对 用 户 进 行商 品 推荐 。 


) 
} 
j= 
/过 


{麦片 } ,置信 和 度 = 2/4 = 


{面包 } ,置信 度 = 2/2 = 
Gt. n) UEM SERE = 2/2 = 
GET 088) (BL), B IB E = 2/2 = 
Ul 1.38 8) (3 r). B Iñ = 2/2 = 

令 最 小 置信 度 为 70%% , 则 得 到 的 关联 规则 如 下 : 
{ 鸡 蛋 } 一 { 面 包 , 麦 片 } ,置信 和 度 = 2/2 = 
UFU. de o Ule) ,置信 度 = 2/2 = 
Ult der) UE) ,置信 度 = 2/2 = 
(GEH 888) 9 Ul Rn) ,置信 和 度 = 2/2 = 
(mE, GRESE). EAE = 2/2 = 


50% 
50% 
50% 
50% 
50% 
100% 
100% 
100% 
100% 


100% 
100% 
100% 
100% 
100% 


6.3.2 案例 分 析 : 使 用 Weka 实现 Apriori 算法 


某 销售 人 员 想 统计 分 析 超 市 事务 数据 中 所 包含 的 关联 规则 , 现 有 一 个 文件 Relation. 
csv, 该 文件 包含 6 个 属性 ,分 别 为 id( 编 号 ) .milk( 牛 奶 ) 、bread( 面 包 ) , cereal Aé Jr) , egg O0 


Æ) .coke( 可 乐 ) 。 


该 文件 为 自 定义 文件 ,文件 Relation. csv 的 内 容 如 表 6-4 所 示 。 
表 6-4 Relation. csv 文件 内 容 




















id milk bread cereal egg coke 

1 FALSE TRUE TRUE FALSE TRUE 
2 TRUE FALSE FALSE FALSE TRUE 
3 TRUE TRUE TRUE FALSE FALSE 
4 TRUE FALSE FALSE FALSE TRUE 
5 FALSE TRUE TRUE TRUE FALSE 
6 TRUE TRUE FALSE FALSE TRUE 
T TRUE TRUE TRUE TRUE FALSE 
8 TRUE TRUE FALSE FALSE TRUE 
9 FALSE TRUE FALSE FALSE TRUE 


根据 关联 
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通过 Weka 软件 使 用 Apriori 算法 进行 关联 规则 分 析 ,具体 步骤 如 下 。 
CD 打开 Weka 软件 ,进入 Weka 主页 面 ,如 图 6-4 所 示 。 





© Weka GUI Chooser _ 口 x 


Program Visualization Tools Help 








图 6-4 Weka 图 形 用 户 界面 选择 器 


© 单 击 Explorer 按钮 ,在 出 现 的 Weka Explorer 窗口 中 单 击 Open file... 按 钮 ,选择 
Relation. csv 文件 ,引入 数据 集 , 如 图 6-5 所 示 。 





© Weka Explorer - 0 x 

















Minimum 
Maximum 
Mean 
StdDev 












































图 6-5 打开 Relation. csv 文件 界面 


© 单 击 Edit... 按 钮 ,弹出 一 个 名 称 为 Viewer 的 对 话 框 , 列 出 该 数据 集中 的 全 部 数据 ， 
该 窗口 以 二 维 表 的 形式 展现 数据 ,用 户 可 以 在 此 窗口 中 查看 和 编辑 整个 数据 集 。 

id 的 取 值 为 整数 ,milk、bread、cereal、egg、coke 的 取 值 为 TRUE 或 FALSE, 以 第 1 行 
为 例 , 由 图 6-6 可 知 ,编号 为 1. 0,milk 为 TRUE. bread H TRUE, cereal 为 TRUE, egg 为 
FALSE,coke 为 FALSE。 

CD 数据 集中 的 id 列 对 实验 并 无 影响 ,因此 在 Attributes 选项 下 ,选中 id 列 , 单 击 
Remove 按钮 ,如 图 6-7 所 示 。 
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图 6-7 执行 Remove 操作 后 界面 


© 选择 Associate 选项 卡 ,然后 单 击 Choose 按钮 ,选择 Apriori 算法 ,如 图 6-8 所 示 。 

© 返回 图 6-9 后 ,双击 Choose 按钮 右 侧 的 文本 框 ,调整 Apriori 算法 的 参数 ,将 最 小 支 
持 度 闵 值 设 为 0.2222, 置 信和 度 设 为 0.7。 

car 为 关联 规则 类 型 ,如 果 设 置 为 真 , 则 程序 显示 类 关联 规则 ,和 否则 显示 非 全 局 关联 
规则 。 

classIndex 为 类 属性 索引 ,返回 当前 数据 集 的 目标 分 类 属性 的 索引 号 ,如 果 设 置 为 一 1， 
则 将 最 后 的 属性 当 作 类 属性 ,否则 将 第 classIndex 列 的 属性 作为 类 属性 。 

delta 为 迭代 递减 单位 ,程序 不 断 按照 delta 减 小 支持 度 直至 达到 最 小 支持 度 或 产生 了 
满足 数量 要 求 的 规则 。 
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图 6-9 调整 Apriori 算法 的 参数 


HD 5 3k 3542 48. 


lowerBoundMinSupport 是 最 小 支持 度 下 界 ,程序 显示 支持 度 大 于 lowerBoundMinSupport 
的 关联 规则 。 

metricType 是 度量 类 型 ,用 来 设置 对 规则 进行 排序 的 度量 依据 ,可 以 是 置信 和 度 、 提 升 
度 、 杠 杆 度 、 确 信和 度 。 

minMetric 是 metricType 选择 的 度量 的 最 小 值 。 

numRules 为 程序 显示 的 规则 数 。 

outputItemSets 为 项 集 输出 选项 ,如 果 outputItemSets 设置 为 真 , 则 在 结果 中 输出 项 
集 ,否则 不 输出 项 集 。 

removeAllMissingCols 为 默认 值 移 除 选项 ,如 果 removeAllMissingCols 设置 为 真 , 则 
程序 会 移 除 全 部 为 默认 值 的 列 。 

significanceLevel 为 参数 重要 程度 ,通常 用 于 重要 性 测试 。 

upperBoundMinSupport 是 最 小 支持 度 上 界 ,程序 运行 时 从 此 值 开 始 迭 代 减 小 最 小 支 
持 度 。 

verbose 为 算法 模式 选项 ,如 果 设 置 为 真 , 则 算法 以 元 余 模式 运行 ,否则 算法 以 精简 模式 
运行 。 

© 返回 图 6-10 后 , 单 击 Start 按钮 , 即 可 运行 Apriori 算法 ,在 右 侧 文本 框 中 查看 得 到 
的 关联 规则 及 关联 规则 的 置信 和 度 、 提 升 度 、 杠 杆 度 、 确 信和 度 等 信息 ,如 图 6-10 所 示 。 


Size of set of large itemsets L(1): 5 
Size of set of large itemsets L(2): S 
Size of set of large itemsets L(3): 1 
Best rules found: 
- Coke=TRUE 6 ==> egg=FALSE 6 — <conf:(1)> lift:(1.29) lev:(0.15) [1] conv: (1.33) 


<conf: (1)> lifc: (1.5) lev:(0.19) [1] conv: (1.67) 

. cereal «FALSE coke=TRUE 5 一 > egg=FALSE S — «conf:(1)» life: (1.29) lev:(0.12) [1] 
. cereal =FALSE egg=FALSE 5 ==> coke=TRUE 5 <conf:(1)> lift:(1.5) lev:(0.19) [1] c 
. Cereal =FALSE 5 一 > egg=FALSE coke=TRUE 5 <conf:(1)> lift: (1.5) lev:(0.19) [1] c 
<conf: (0.86)> 13ft: (1.29) lev:(0.15) [1] conv: (1.17) 

<conf: (0.83)> lift: (1.07) lev:(0.04) [0] conv: (0.67) 

<conf: (0.83)> lift: (1.5) lev:(0.19) [1] conv: (1. 


10. egg=FALSE coke«TRUE 6 ==> cereal =FALSE S — «conf:(0.83)» lift:(1.5) lev:(0.19) D| 








图 6-10 数据 集 分 析 结 果 


分 析 结 果 显 示 了 最 好 的 10 条 规则 .如 下 所 示 : 

CD 第 1 条 规则 表明 ,购买 了 可 乐 的 顾客 通常 不 会 购买 鸡蛋 ,这 条 规则 的 置信 度 为 1 , 提 
升 度 为 1. 29 ,杠杆 度 为 0. 15 ,确信 度 为 1.33; 

© 第 2 条 规则 表明 ,没有 购买 麦片 的 顾客 也 不 会 购买 鸡蛋 ,这 条 规则 的 置信 度 为 1 , 提 
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升 度 为 1. 29 ,杠杆 度 为 0. 12 ,确信 度 为 1.11; 

@ 第 3 条 规则 表明 ,未 购买 麦片 的 顾客 会 购买 可 乐 ,这 条 规则 的 置信 度 为 1, 提 升 度 为 
1.5, 杠 杆 度 为 0. 19 ,确信 度 为 1. 67; 

CD 第 4 条 规则 表明 ,未 购买 麦片 但 购买 了 可 乐 的 顾客 往往 不 会 购买 鸡蛋 ,这 条 规则 的 
置信 和 度 为 1 ,提升 度 为 1. 29 ,杠杆 度 为 0. 12 ,确信 度 为 1. 11; 

© 第 5 条 规则 表明 ,未 购买 麦片 和 鸡蛋 的 顾客 通常 会 购买 可 乐 , 这 条 规则 的 置信 度 为 
1 ,提升 度 为 1. 5, 杠 杆 度 为 0. 19 ,确信 度 为 1. 67; 

© 第 6 条 规则 表明 ,未 购买 麦片 的 顾客 通常 不 会 购买 鸡蛋 ,但 会 购买 可 乐 , 这 条 规则 的 
置信 度 为 1 ,提升 度 为 1.5, 杠 杆 度 为 0. 19 ,确信 和 度 为 1.67; 

CD 第 7 条 规则 表明 ,未 购买 鸡蛋 的 顾客 通常 会 购买 可 乐 , 这 条 规则 的 置信 度 为 0. 86 , 提 
升 度 为 1. 29 ,杠杆 度 为 0. 15 ,确信 和 度 为 1.17; 

®© 第 8 条 规则 表明 ,购买 了 牛奶 的 顾客 通常 不 会 购买 鸡蛋 ,这 条 规则 的 置信 度 为 0. 83， 
提升 度 为 1. 07, 杠 杆 度 为 0. 04 ,确信 度 为 0.67; 

@ 第 9 条 规则 表明 ,购买 了 可 乐 的 顾客 不 会 购买 麦片 ,这 条 规则 的 置信 度 为 0. 83 ,提升 
度 为 1.5, 杠 杆 度 为 0. 19 ,确信 度 为 1. 33; 

d) 第 10 条 规则 表明 ,购买 了 可 乐 但 未 购买 鸡蛋 的 顾客 往往 不 会 购买 麦片 ,这 条 规则 的 
置信 度 为 0. 83 ,提升 度 为 1. 5, 杠 杆 度 为 0.19, 确 信和 度 为 1. 33。 

通过 以 上 规则 可 以 得 出 ,可 乐 ,麦片 和 鸡蛋 基本 上 是 相互 排斥 的 ,牛奶 和 鸡蛋 也 是 相互 
排斥 的 ,而 且 顾 客 在 购买 鸡蛋 和 可 乐 时 通常 只 会 选择 其 中 之 一 。 


6.4 FP-growth 算法 


Apriori 算法 原理 简单 .易于 理解 ,所 以 广 为 使 用 。 但 是 ,Apriori 算法 在 挖掘 过 程 中 会 
产生 大 量 候选 项 集 , 另 外 ,Apriori 算法 需要 多 次 扫描 整个 数据 库 , 从 而 会 产生 较 大 的 开销 。 
而 FP-growth 算法 能 够 避免 Apriori 算法 候选 过 程 的 巨大 开销 ,有 效 地 提高 效率 。 本 节 首 
先 介绍 FP-growth 算法 的 原理 和 应 用 ,然后 通过 Weka 软件 使 用 FP-growth 算法 进行 关联 
分 析 。 


6.4.1  FP-growth 算法 分 析 


从 Apriori 算法 的 运行 过 程 中 可 以 看 出 ,Apriori 算法 在 每 一 步 产 生 候选 项 目 集 时 循环 
产生 的 组 合 过 多 ,产生 大 量 候选 项 集 , 并 且 没 有 排除 无 用 的 候选 项 集 , 时 间 开 销 和 空间 开销 
都 比较 大 ,同时 ,在 每 次 计算 项 集 支 持 度 时 ,Apriori 算法 都 会 对 全 部 数据 进行 一 次 扫描 比 
较 , 如 果 扫 描 一 个 大 型 数据 库 的 话 , 则 会 大 大 增加 计算 机 系统 的 1⁄O 开销 ,而 这 种 代价 会 随 
着 数据 库 规模 的 增加 呈现 出 几何 级 数 的 增加 态势 。 

而 FP-growth 算法 采用 完全 不 同 的 方法 发 现 频繁 项 集 ,该 算法 不 同 于 Apriori 算法 的 
“产生 一 测试 " 泛 型 。 由 于 避免 了 不 断 生成 候选 项 目 队 列 和 不 断 扫描 整个 数据 库 进行 比 对 的 
操作 ,FP-growth 算法 大 大 降低 了 Aproir 挖掘 算法 的 空间 和 时 间 的 资源 消耗 。 为 了 达到 这 
样 的 效果 ,FP-growth 算法 采用 一 种 简洁 的 数据 结构 , 称 为 频繁 模式 树 (Frequent-Pattern 


tree, FP-tree), 
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FP-growth 算法 的 原理 是 : 首先 扫描 整个 事务 数据 库 ,生成 1 项 集 的 频繁 集 ,并 把 它们 
按 降序 排列 ,排除 支持 度 计 数值 小 于 min. sup 的 项 ,产生 结果 集 工 ;然后 按照 项 集 构造 一 棵 
FP-tree, 同 时 依然 保留 其 中 的 关联 信息 ,最 后 再 扫描 一 次 事务 数据 库 , 由 下 向 上 进行 循序 挖 
掘 ,删除 FP-tree 中 的 子 节点 , 即 可 产生 所 需要 的 频繁 模式 。 

FP-growth 算法 伪 代 码 如 下 。 


输入 : 
D: 事 务 数据 集 ; 
min sup: 最 小 支持 度 阅 值 
输出 : 
FP- Tree 
FP- growth 算法 : 
扫描 事务 数据 集 D 一 次 ,获得 频繁 项 的 集合 F 和 其 中 每 个 频繁 项 的 支持 度 。 对 下 中 的 所 有 频繁 
项 按 其 支持 度 进行 降序 排序 ,结果 为 频繁 项 表 L; 
创建 一 个 FP- Tree 的 根 节点 TARIH "null"; 
for 事 务 数据 集 D 中 每 个 事务 Trans do 
对 Trans 中 的 所 有 频繁 项 按照 工 中 的 次 序 排序 ; 
对 排序 后 的 频繁 项 表 以 [plP] 格式 表示 ,其 中 p 是 第 一 个 元 素 ,而 P 是 频繁 项 表 中 除去 p 
后 的 剩余 元 素 组 成 的 项 表 ， 
调用 函数 insert tree([pIP], T); 
end for 


insert tree([p|P], root) 
if root 有 孩子 节点 N and N.item- name- p.item- name then 
N.count+ +; 
else 
创建 新 节点 N; 
N.item-name=p.item- name; 
N.count++; 
p-parent- root; 
将 N.node- link 指向 树 中 与 它 同 项 目 名 的 节点 ; 
end if 
if P 非 空 then 
把 p 的 第 一 项 目 赋值 给 p, 并 把 它 从 P 中 删除 ; 
递归 调用 insert tree([plP], N); 
end if 


FP-growth 算法 的 实现 步骤 如 下 。 

CD 统计 所 有 的 1 项 集 的 频繁 项 集 和 相应 的 支持 度 计数 ,并 按照 支持 度 逆序 排列 。 

@ 根据 每 一 个 事务 中 的 数据 创建 或 修改 FP-tree 的 节点 ,并 修改 该 节点 的 左右 链接 。 

© 从 1 项 集 的 频繁 项 集中 支持 度 最 低 的 项 开始 向 上 找 出 所 有 前 缀 路径 ,构造 条 件 模式 
基 , 并 统计 这 些 条 件 模式 基 的 支持 度 。 

CD 通过 条 件 模式 基 构造 条 件 FP-tree. 删 除 其 中 支持 度 低 于 最 小 支持 度 阅 值 的 部 分 , 满 
J Bt] SC FF EE BJ (8 869 aB y M Je pi KE , 
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© 递归 地 挖掘 每 个 条 件 FP-tree, 直 到 找到 FP-tree 为 空 或 者 FP-tree 只 有 一 条 路 径 ( 该 
路 径 上 的 所 有 项 的 组 合 都 是 频繁 项 集 ) 。 

例 6.16 FP-growth 算法 。 

本 例 使 用 表 6-2 的 事务 数据 挖掘 事务 数据 中 的 频繁 项 集 。 该 数据 库 具 有 9 个 事务 , 设 
最 小 支持 度 为 2 ,频繁 项 集 的 极 大 长 度 为 3。 试 使 用 FP-growth 算法 挖掘 表 6-2 的 事务 数据 
中 的 频繁 项 集 。 

(D 首先 统计 所 有 1 项 集 的 频繁 项 集 的 支持 度 计 数 ,并 按 逆序 排列 ,得 到 工 二 {{ 面 包 : 
7),{ 牛 奶 ; 6},{ 可 乐 : 6}, {麦片 : 4) , {鸡蛋 : 2}} ,建立 树 的 根 节点 ,用 null 表示 ,然后 依次 
处 理 每 个 事务 的 数据 。 

© K 6-2 中 TID=1 的 事务 “面包 ,可 乐 ,麦片 ”, 按 照 L 的 支持 度 计 数 从 大 到 小 排序 ,此 
事务 包括 {面包 : 1){ 可 乐 : 1)、{ 麦 片 : 1) ,此 时 FP-tree 的 根 节点 null 连接 到 “面包 ”节点 ， 
“面包 ”节点 连接 到 “可 乐 ”* 节 点,“ 可 乐 ” 节 点 连接 到 “麦片 ”节点 ,更 新 所 有 节点 的 支持 度 
加 1。 

© 处 理 TID—2 的 事务 “牛奶 ,可 乐 ”, 按 照 上 的 支持 度 计 数 从 大 到 小 排序 ,此 事务 包括 
{牛奶 ; 1}、{ 可 乐 : 1) ,由 于 此 时 FP-tree 并 不 包含 该 事务 的 共同 前 级 ,因此 FP-tree 需要 产 
生 一 个 分 支 , 它 的 根 节点 null 与 男 一 个 “牛奶 ”节点 相连 ,“ 牛 奶 ” 节 点 连接 到 “可 乐 ” 节 点 ,并 
更 新 相关 节点 的 支持 度 加 1。 

@ 对 于 TID=3 的 事务 “牛奶 ,面包 ,麦片 ,按照 工 的 支持 度 计数 从 大 到 小 排序 ,此 事 
务 包 括 { 面 包 : 1}、{ 牛 奶 : 1)、{ 麦 片 : 1) ,此 时 FP-tree 中 不 包含 前 级 {面包 牛奶} ,因此 新 建 
一 个 节点 “牛奶 ”, 将 该 节点 连接 到 “面包 ”节点 ,再 新 建 一 个 节点 “麦片 ”, 将 该 节点 连接 到 “ 牛 
奶 ” 节 点 ,并 更 新 相关 节点 的 支持 度 加 1。 

© 对 于 TID=4 的 事务 “牛奶 ,可 乐 ”, 按 照 上 的 支持 度 计 数 从 大 到 小 排序 ,此 事务 包括 
{牛奶 ; 1}、{ 可 乐 : 1) ,此 时 FP-tree 中 已 经 包含 前 级 {牛奶 ,可 乐 }, 因 此 仅 更 新 相关 节点 的 
支持 度 加 1 。 

© 对 于 TID=5 的 事务 “面包 ,鸡蛋 ,麦片 ,按照 工 的 支持 度 计数 从 大 到 小 排序 ,此 事 
务 包 括 { 面 包 : 1) CAE: 1} 、{ 鸡 蛋 : 1) ,此 时 FP-tree 中 不 包含 前 级 {面包 、 麦 片 } ,但 已 有 前 
级 {面包 ) ,因此 新 建 一 个 节点 “麦片 ”, 将 该 节点 连接 到 “面包 ”节点 , 青 新 建 一 个 节点 “鸡蛋 ”， 
将 该 节点 连接 到 “麦片 ”节点 ,并 更 新 相关 节点 的 支持 度 加 1。 

CD 对 于 TID=6 的 事务 “牛奶 ,面包 ,可 乐 ", 按 照 工 的 支持 度 计数 从 大 到 小 排序 ,此 事 
务 包括 {面包 : 1) { 牛 奶 : 1) (TR: 1) ,此 时 FP-tree 中 已 经 包含 前 级 {面包 ,牛奶 } ,因此 新 
建 一 个 节点 “可 乐 ”, 将 该 节点 连接 到 “牛奶 ”节点 ,并 更 新 相关 节点 的 支持 度 加 1。 

对 于 TID=7 的 事务 “牛奶 ,面包 ,鸡蛋 ,麦片 ”, 按 照 L 的 支持 度 计数 从 大 到 小 排序 ， 
此 事务 包括 {面包 : 1) 、{ 牛 奶 : 1) 、{ 麦 片 : 1} GE: 1) ,此 时 FP-tree 中 已 经 包含 前 级 { 面 
包 、 牛 奶 、 麦 片 } ,因此 新 建 一 个 节点 “鸡蛋 ”, 将 该 节点 连接 到 “麦片 ”节点 ,并 更 新 相关 节点 的 
支持 度 加 1 。 

@ 对 于 TID=8 的 事务 “牛奶 ,面包 ,可 乐 ”, 按 照 L 的 支持 度 计数 从 大 到 小 排序 ,此 事 
务 包括 { 面 包 : 1) CES: 1}、{ 可 乐 : 1} ,此 时 FP-tree 中 已 经 包含 前 级 {面包 、 牛 奶 、 可 乐 }， 
因此 仅 更 新 相关 节点 的 支持 度 加 1. 

D 对 于 TID=9 的 事务 “面包 ,可 乐 ”, 按 照 工 的 支持 度 计数 从 大 到 小 排序 ,此 事务 包括 


131 


132 


EE 2-3 5 3 5 42 48 


(HE: 1}、{ 可 乐 : 1) ,此 时 FP-tree 中 已 经 包含 前 绥 { 面 包 . 可乐 ) ,因此 仅 更 新 相关 节点 的 
支持 度 加 1 。 
FP-tree 如 图 6-11 所 示 。 
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图 6-11 FP-tree 


根据 FP-growth 算法 的 步骤 四 ,从 1 项 集 的 频繁 项 集中 支持 度 最 低 的 项 {鸡蛋 } 开 始 ， 
向 上 找 出 所 有 前 缀 路 径 。 从 图 6-11 可 以 看 出 ,项 {鸡蛋 } 的 前 级 路 径 有 {面包 ,牛奶 ,麦片 : 
1) 和 {面包 ,麦片 : 1} 。 而 条 件 模 式 基 由 FP-tree 中 项 的 前 级 路 径 集 组 成 ,因此 项 {鸡蛋 } 的 条 
件 模式 基 为 {{ 面 包 , 牛 奶 ,麦片 : 1) , {面包 ,麦片 : 1)})。 

由 于 项 { 鸡 蛋 } 的 条 件 模式 基 中 包含 路 径 { 面 包 : 2, 麦 片 : 2} ,而 不 包含 牛奶 ,因为 牛奶 
的 支持 度 计 数 对 于 项 { 鸡 蛋 } 来 说 为 1, 小 于 最 小 支持 度 阔 值 。 因 此 得 到 项 { 鸡 蛋 } 的 条 件 FP- 
tree 为 { 面 包 : 2, 麦 片 : 2}。 根 据 条 件 FP-tree 产生 的 频繁 项 集 的 所 有 组 合 为 {{ 面 包 , 鸡 蛋 : 
2) {麦片 ,鸡蛋 : 2) {面包 ,麦片 ,鸡蛋 : 2))。 

同 理 ,对 于 项 {麦片 ) ,可 以 得 到 频繁 模式 {{ 面 包 , 麦 片 : 3), {牛奶 ,麦片 : 2} , {面包 , 牛 
奶 ,麦片 : 2)}。 

对 于 项 {可 乐 }, 可 以 得 到 频繁 模式 {{ 面 包 , 可 乐 : 4}, {牛奶 ,可 乐 : 4)}, {面包 ,牛奶 ,可 
Ber 21). 

对 于 项 {牛奶} ,可 以 得 到 频繁 模式 {{ 面 包 , 牛 奶 : 4))。 

不 论 挖掘 长 的 或 短 的 频繁 模式 ,FP-growth 算法 都 是 有 效 且 可 伸缩 的 , 相 比 于 Apriori 
算法 ,运行 速度 要 快 一 个 数量 级 。FP-growth 算法 的 优点 是 无 须 多 次 扫描 数据 库 , 节 省 了 运 
行 时 间 ; 采 用 分 治 方 法 递归 实现 。 但 是 ,FP-growth 算法 在 建立 FP-tree 时 会 占用 大 量 空 
间 , 并 且 处 理 产 生 的 条 件 树 时 会 占用 很 多 资源 。 


第 6 章 频繁 模式 挖 握 


6.4.2 案例 分 析 : 使 用 Weka 实现 FP-growth 算法 


某 销售 人 员 想 统计 分 析 超 市 事务 数据 中 包含 的 关联 规则 , 仍 使 用 Relation. csv 文件 。 
现 通过 Weka 软件 中 的 FP-growth 算法 生成 关联 规则 ,具体 步骤 如 下 。 

CD 按照 6. 3. 2 节 中 的 步骤 四 一 由 操作 ,打开 Weka 软件 ,引入 数据 集 。 

© 引入 数据 集 之 后 的 界面 如 图 6-12 Bro o 


© Weka Explorer 





Classify [ Cluster [ Associate | Select atnbutes | Visualize 
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图 6-12 引入 数据 集 后 界面 


© 对 于 图 6-12 ,选择 Associate 选项 卡 , 单 击 Choose 按钮 ,选择 FP-growth 算法 ,如 
图 6-13 所 示 。 

(D 双击 Choose 按钮 右 侧 的 文本 框 ,调整 FP-growth 算法 的 参数 ,如 图 6-14 所 示 。 

delta 为 迭代 递减 单位 ,程序 不 断 按照 delta 减 小 支持 度 直至 达到 最 小 支持 度 或 产生 了 
满足 数量 要 求 的 规则 。 

doNotCheckCapabilities 为 适用 性 检测 选项 ,如 果 doNotCheckCapabilities 设置 为 真 ， 
则 在 分 类 器 构建 之 前 检测 该 算法 的 适用 性 ,否则 不 检测 该 算法 的 适用 性 。 

findAllRulesForSupportLevel 为 规则 显示 选项 ,如 果 findAllRulesForSupportLevel 设 
置 为 真 , 则 会 输出 所 有 满足 支持 度 的 规则 ,否则 显示 部 分 满足 支持 度 的 规则 。 

lowerBoundMinSupport 是 最 小 支持 度 下 界 , 程 序 显示 支持 度 大 于 lowerBoundMinSupport 
的 关联 规则 。 

maxNumberOfItems 为 事务 的 最 大 数量 .默认 为 一 1 ,表示 不 限制 事务 数量 。 

metricType 是 度量 类 型 ,用 来 设置 对 规则 进行 排序 的 度量 依据 ,可 以 是 置信 度 、 提 升 
度 . 杠 杆 度 、 确 信 度 。 

minMetric 是 metricType 选择 的 度量 的 最 小 值 。 
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s <conf: (1)> lifc: (1.29) levi(0.15) [1] conv: (1.33) 

5 一 > egg-FALSE 5 — <conf: (1)> lift:(1.29) lev:(0.12) [1] 

S 一 > coke=TRUE 5 <conf:(1)> lift:(1.S) lev:(0.19) [1] cj 
<conf: (0.86)> lifc: (1.29) lev:(0.15) [1] conv:(1.17) 
<conf: (0.83)> 1ift:(1.07) lev: (0.04) [0] conv: (0.6?) 


<conf: (0.71)> lift:(1.07) lev:(0.04) [0] conv: (0.78) 
*conf:(0.71)» lift:(0.92) lev:(-0.05) [0] conv:| 





图 6-13 选择 FP-growth 算法 界面 


Class implementing the FP-growth algorithm for finding large item sets 
| without candidate generation 





图 6-14 调整 FP-growth 算法 参数 列表 
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numRulesToFind 为 程序 输出 的 规则 数 。 

O 调整 完 参数 后 , 单 击 OK 按钮 ,返回 上 一 个 窗口 , 单 击 其 中 的 Start 按钮 , 即 可 运行 
FP-growth 算法 ,在 右 侧 文本 框 中 查看 得 到 的 关联 规则 及 关联 规则 的 置信 和 度 、 提 升 度 . 杠 杆 
度 、 确 信 度 等 信息 ,如 图 6-15 所 示 。 


一 Associator model (full training set) 一 
FPGrowth found 7 rules (displaying top 7) 


. [breadeFALSE]: 2 ==> [milkeTRUE]: 2 — «conf:(1)» lift:(1.S) lev:(0.07) conv: (0.67) 

. [breadeFALSE]: 2 ==> [cereal «FALSE]: 2 — «conf:(1)» lift:(1.8) lev:(0.1) conv: (0.8: 
- [egg-IRUE]: 2 一 > [coke-FALSE]: 2 — «conf:(1)» lift:(3) lev: (0.15) conv:(1.5: 

. [breadeFALSE]: 2 ==> [milkeTRUE, cereal -FALSE]: 2 — «conf:(1)» lift:(2.25) lev:(0.1 
. [milkeTRUE, breadeFALSE]: 2 ==> [cereal -FALSE]: 2 — «conf:(1)» lift: (1.8) lev:(0.1) 
. [cereal -FALSE, breadeFALSE]: 2 ==> [milkeIRUE]: 2 — «conf:(1)» lift:(1.5) lev:(0.07 


. [milkeTRUE, egg=TRUE]: 1 ==> [coke-FALSE]: 1  «conf:(1)» lift:(3) lev:(0.07) conv: (| 








图 6-15 数据 集 分 析 结 果 


分 析 结 果 显 示 了 最 好 的 7 条 规则 ,如 下 所 示 。 

CD 第 1 条 规则 表明 ,未 购买 面包 的 顾客 通常 会 购买 牛奶 ,这 条 规则 的 置信 度 为 1, 提升 
度 为 1.5, 杠 杆 度 为 0. 07 ,确信 度 为 0.67。 

© 第 2 条 规则 表明 ,未 购买 面包 的 顾客 不 会 购买 麦片 ,这 条 规则 的 置信 度 为 1, 提升 度 
为 1.8, 杠 杆 度 为 0. 1, 确 信 度 为 0. 89。 

© 第 3 条 规则 表明 ,购买 了 鸡蛋 的 顾客 不 会 购买 可 乐 , 这 条 规则 的 置信 度 为 1 ,提升 度 
为 3, 杠杆 度 为 0. 15 ,确信 度 为 1. 33。 

© 第 4 条 规则 表明 ,未 购买 面包 的 顾客 往往 会 购买 牛奶 ,但 不 会 购买 麦片 ,这 条 规则 的 
置信 度 为 1 ,提升 度 为 2. 25 ,杠杆 度 为 0. 12 ,确信 度 为 1. 11. 

C) 第 5 条 规则 表明 ,购买 了 牛奶 但 不 购买 面包 的 顾客 通常 也 不 会 购买 麦片 ,这 条 规则 
的 置信 度 为 1 ,提升 度 为 1. 8, 杠 杆 度 为 0. 1 ,确信 度 为 0. 89. 

© 第 6 条 规则 表明 ,未 购买 麦片 和 面包 的 顾客 通常 会 购买 牛奶 ,这 条 规则 的 置信 和 度 为 
1 ,提升 度 为 1. 5, 杠 杆 度 为 0.07 ,确信 和 度 为 0.67. 

CD 第 7 条 规则 表明 ,购买 了 鸡蛋 和 牛奶 的 顾客 通常 不 会 购买 可 乐 , 这 条 规则 的 置信 度 
为 1 ,提升 度 为 3, 杠 杆 度 为 0. 07 ,确信 度 为 0. 67。 

通过 以 上 规则 可 以 得 出 ,未 购买 牛奶 或 者 面包 的 顾客 通常 不 会 购买 麦片 ,未 购买 面包 的 
顾客 往往 会 购买 可 乐 ,而 且 鸡 蛋 与 麦片 互 斥 。 
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6.5 ”压缩 频繁 项 集 


在 实际 应 用 中 , 当 最 小 支持 度 阔 值 较 低 或 者 数据 规模 较 大 时 ,使 用 频繁 模式 挖掘 事务 数 
据 可 能 会 产生 过 多 的 频繁 项 集 ,而 闭 频 繁 模式 、 极 大 模式 等 模式 可 以 显著 减少 频繁 模式 挖掘 
所 产生 的 频繁 项 集 的 数量 。 


6.5.1 挖掘 闭 模式 


WME XEY, AY 中 至 少 有 一 项 不 在 X 中 ,那么 Y 是 X 的 真 超 项 集 。 如 果 在 数据 集中 
不 存在 频繁 项 集 X 的 真 超 项 集 Y ,使 XY 的 支持 度 相 等 ,那么 称 项 集 X 是 这 个 数据 集 的 闭 
频繁 项 集 。 

闭 频 繁 项 集 提供 了 频繁 项 集 的 一 种 最 小 表示 ,提供 了 完整 的 项 目 集 的 压缩 描述 ,通常 比 
频繁 模式 要 小 几 个 数量 级 。 如 果 首 先 得 到 所 有 的 频繁 项 集 ,然后 根据 相应 的 规则 删除 部 分 
频繁 项 集 ,那么 用 户 会 得 到 2 的 震级 别 数 量 的 频繁 项 集 ,会 产生 极 大 的 开销 。 

在 实际 应 用 中 ,推荐 的 方法 是 直接 搜索 闭 频繁 项 集 ,并 对 搜索 结果 进行 前 枝 。 剪 枝 的 策 
WEAR. 

(D 项 合并 : 如 果 包 含 频 繁 项 集 X 的 每 个 事务 都 包含 项 集 Y, 但 不 包含 Y 的 任何 真 超 
集 , 则 XUY 形成 一 个 闭 频 繁 项 集 ,并 且 不 必 搜 索 包 含 X 但 不 包含 Y 的 任何 项 集 。 

O 子 项 集 剪 枝 : 如 果 频 繁 项 集 X 是 一 个 已 经 发 现 的 闭 频繁 项 集 Y 的 真子 集 ,并 且 两 者 
的 支持 度 计 数 相等 , 则 X 和 Y 的 所 有 后 代 都 不 可 能 是 闭 频繁 项 集 ,因此 可 以 剪 枝 。 


8016.17. 闭 模式 。 
K 6-5 给 出 了 事务 数据 ,假设 最 小 支持 度 为 2, 求 闭 频繁 项 集 。 
表 6-5 项 集 事务 
TID Items TID Items 





1 abc 4 acde 
2 abcd 5 de 


3 ace 


根据 表 6-5 ,得 到 部 分 频繁 项 集 。 
(Lei (d) (e) {ac}, {bd}, {ce}, {de}, {abc}, {acd}} 
而 这 些 频 繁 项 集 的 支持 度 都 大 于 等 于 2, 并且 不 存在 等 于 它们 本 身 支持 度 的 真 超 集 ,所 
以 这 些 频繁 项 集 是 闭 频繁 项 集 , 表 6-5 中 所 有 的 闭 频繁 项 集 如 图 6-16 所 示 。 而 频繁 项 集 
(a) 的 真 超 集 {ab} 的 支持 度 和 频繁 项 集 {a} 的 支持 度 都 为 2, 所 以 频繁 项 集 {a} 不 是 闭 频繁 
项 集 。 


6.5.2 挖掘 极 大 模式 


如 果 在 数据 集中 不 存在 频繁 项 集 X 的 真 超 项 集 Y, 并 且 Y 也 是 频繁 项 集 , 那 么 称 项 集 
X 是 这 个 数据 集 的 极 大 频繁 项 集 ,而 极 大 频繁 项 集中 隐 含 着 全 部 的 频繁 项 集 。 因 此 可 以 推 
导出 极 大 频繁 项 集 是 闭 频繁 项 集 ,而 闭 频繁 项 集 不 一 定 是 极 大 频繁 项 集 。 
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例 6.18 极 大 频繁 项 集 。 

对 于 表 6-5 中 的 数据 ,依旧 假设 最 小 支持 度 为 2, 从 图 6-17 中 可 知 闭 频繁 项 集 如 下 
所 示 。 

(te) (di (el tac) {bd}, {ce}, (de) {abc}, {acd} } 

由 于 频繁 项 集中 不 存在 {{abc)、{acd}、{bc)、{d}、{ce)、{de)) 等 项 集 的 真 超 项 集 ,因此 
{{abc}、{acd}、{bec}、{d)、{ce)}、{de}}) 为 极 大 频繁 项 集 。 

通常 较 大 的 数据 集会 产生 许多 频繁 项 集 , 而 过 大 的 频繁 项 集 个 数 会 占用 和 消耗 计算 机 
的 资源 ,使 计算 机 无 法 计算 和 存储 ,因此 引入 极 大 频繁 项 集 的 概念 。 极 大 频繁 项 集 有 效 地 提 
供 了 频繁 项 集 的 紧凑 表示 。 换 句 话 说 , 极 大 频繁 项 集 形成 了 可 以 导出 所 有 频繁 项 集 的 最 小 
项 集 的 集合 。 对 于 可 能 产生 频繁 项 集 的 数据 集 , 由 于 这 种 数据 集中 的 频繁 项 集 可 能 有 指数 
多 个 ,所 以 极 大 频繁 项 集 提 供 了 颇 有 价值 的 表示 。 


6.6 习题 


1. 关联 规则 的 应 用 领域 有 哪些 ? 

2. 简 述 关联 规则 挖掘 算法 采用 的 策略 。 

3. 频繁 项 集 .频繁 闭 项 集 ` 极 大 频繁 项 集 的 定义 。 

4. 某 零 售 商 统计 学 生 打 篮球 和 吃 早餐 之 间 的 关系 如 表 6-6 所 示 。 


表 6-6 学 生 打 篮 球 和 了 吃 早餐 的 关系 





打 篮 球 人 数 不 打 篮 球 人 数 行 和 
吃 早餐 人 数 2000 1750 3750 
不 吃 早 餐 人 数 1000 250 1250 


列 和 3000 2000 5000 
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假设 最 小 支持 度 冰 值 为 0. 3 ,最 小 置信 度 冰 值 为 0.6。 请 问 学 生 打 篮球 和 吃 早餐 是 否 相 
X? 请 计算 学 生 打 篮球 和 吃 早餐 两 者 之 间 的 全 置信 和 度 、 极 大 置信 和 度 和 Kulczynski 度量 。 

5. 简 述 Apriori 算法 的 步骤 及 其 优点 和 缺点 。 

6. 考虑 如 下 的 频繁 3 项 集 : (1,2,3},{2,3,4},{1,2,5},{3,4,5},{1,4,5},{2,3,5)， 
(3,4,5), 

CD 写 出 利用 频繁 3 项 集 生 成 的 所 有 候选 频繁 2 项 集 。 

(2) 写 出 经 过 剪 枝 后 的 频繁 3 项 集 。 

7. 简 述 FP-growth 算法 的 优点 和 缺点 。 


在 进行 数据 分 析 和 数据 挖掘 的 过 程 中 ,有 时 候 需 要 对 数据 的 类 别 进 行 预测 。 预 测 类 别 
的 方法 有 很 多 ,本 章 重 点 介绍 基于 监督 学 习 模型 的 分 类 预测 方法 ,简称 分 类 模型 。 使 用 分 类 
模型 可 以 实现 很 多 数据 预测 的 功能 ,其 在 现实 生活 中 有 广泛 的 应 用 ,例如 可 以 进行 银行 信用 
卡 诈骗 的 预测 、 天 气 预报 的 预测 、 医 疗 诊断 的 预测 等 。 

本 章 从 分 类 的 基本 概念 开始 ,介绍 基本 的 分 类 算法 和 模型 ,探讨 算法 的 过 程 和 流程 , 通 
过 对 决策 树 .朴素 贝 叶 斯 ,神经 网 络 等 基础 算法 的 介绍 ,描述 各 类 分 类 算法 的 基本 原理 。 


7.1 分 类 概述 


7.1.1 分 类 的 基本 概念 


在 现实 生活 中 ,常常 需要 对 数据 的 结果 进行 一 定 的 预测 以 便 进行 更 好 的 决策 。 例 如 根 
据 一 个 人 的 历史 诊断 报告 可 以 分 析 此 人 患 乳腺 癌 的 概率 是 多 大 ,以 便 进行 相应 的 治疗 和 预 
防 。 通 过 上 面 的 例子 可 以 知道 : 分 类 就 是 根据 以 往 的 数据 和 结果 对 另 一 部 分 数据 进行 结果 
的 预测 。 

图 7-1 展示 了 分 类 预测 的 基本 过 程 。 其 中 ,历史 数据 称 为 训练 数据 ,要 预测 的 数据 称 为 
测试 数据 ,而 结果 称 为 类 标签 。 分 类 预测 主要 有 学 习 和 分 类 两 个 阶段 。 利 用 数据 进行 模型 
参数 的 调节 过 程 称 为 训练 或 学 习 , 训 练 的 结果 是 产生 一 个 分 类 器 或 者 分 类 模型 ,进而 可 以 根 
据 这 个 模型 对 测试 数据 进行 预测 ,得 到 相应 的 类 标签 结果 。 类 标签 的 数据 种 类 可 以 分 为 二 
分 类 和 多 分 类 。 


(GG) GE) 








图 7-1 分 类 器 训练 和 预测 过 程 


需要 注意 的 是 ,训练 数据 是 有 已 知 的 类 标签 的 ,而 且 训 练 数据 除 类 标签 外 ,其 余部 分 的 
结构 和 测试 数据 需要 完全 一 致 , 即 特征 数量 要 对 应 。 


7.1.2 分 类 的 相关 知识 
分 类 算法 大 多 是 基于 统计 学 .概率 论 以 及 信息 论 的 ,下 面 首先 介绍 分 类 算法 中 涉及 的 相 
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关 知 识 。 
1. f & fj 


信息 是 很 抽象 的 概念 ,信息 可 以 用 “很 多 ”或 者 “ 较 少 ”表达 ,但 却 很 难说 清楚 信息 到 底 有 
多 少 。 直 到 1948 年 ,香农 提出 了 “信息 炉 ” 的 概念 , 才 解 决 了 对 信息 的 量化 度量 问题 。 
信息 炉 用 来 衡量 事件 不 确定 性 的 大 小 ,其 定义 如 公式 (7-1) 所 示 。 
Infor (x)—— p(x)X log, p(z) (7-1) 
其 中 ,z don EE. p GO PE E fF A HE HEEL e IL DU TEE Xe B Bü DL ht D 4 fll E 
PERK ito BECK, dri E id Je Bi DL 2E fik As Uf a TE KY SE ht (rs BA NB BJ 6 A u e EOS o 
fr Bl HUE TAE HD 1 BE ER fr. SML IX (7-2) BR , 


Infor (X) —— Xo. )X log; p (x; ) (7-2) 
公式 (7-2) 中 的 x 代表 多 个 事件 ,zxz; 表示 第 ; 个 事件 。 
2. 信息 增益 


信息 增益 表示 某 一 特征 的 信息 对 类 标签 的 不 确定 性 减少 的 程度 。 集 合 D 表示 全 体 数 
据 , 信 息 增益 定义 为 数据 集合 D 的 信息 炉 与 在 特征 A 给 定 条 件 下 数据 集合 D Ii Bc 
差 , 如 公式 (7-3) 所 示 。 
g(D|A)- Infor(D)— Infor(D | A) (7-3) 
其 中 ,Jzjfor(CDIA) 是 在 特征 A 给 定 条 件 下 对 数据 集合 D 进行 划分 所 需要 的 期 望 信 
息 , 它 的 值 越 小 ,表示 分 区 的 纯度 越 高 ,计算 公式 如 式 (7-4) 所 示 。 


Infor (D | A)= xd |D; | X Infor(D;) (7-4) 


D,; 表 示 第 j 个 数据 分 区 ,TFT "i 示 第 j 个 数据 分 区 的 权重 。 


例 7.1 信息 增益 的 计算 。 
d 7-1 是 带 有 标记 类 的 训练 集 DD, 训 练 集 的 列 是 一 些 特征 , 表 中 最 后 一 列 的 类 标号 为 是 
否 提 供 贷款 ,有 两 个 不 同 的 取 值 ,计算 按照 每 个 特征 进行 划分 的 信息 增益 。 


表 7-1 贷款 申请 的 训练 集 




















ID 学 历 婚 否 是 否 有 车 收入 水 平 类 别 
1 专科 否 否 中 否 
2 专科 否 否 高 否 
3 专科 是 否 高 是 
4 专科 是 是 中 是 
5 专科 否 F 中 否 
6 本 科 否 否 中 否 
7 本 科 否 " 高 F 
8 本 科 是 是 高 是 
9 本 科 F 是 很 高 是 
10 本 科 否 是 很 高 是 








续 表 
ID 学 历 婚 否 是 否 有 车 收入 水 平 类 别 
11 研究 生 否 是 很 高 是 
12 研究 生 否 是 高 是 
13 研究 生 是 F 高 是 
14 研究 生 是 否 很 高 是 
15 研究 生 F "m 中 否 





fi. 
(D 从 表 中 可 知 ,有 9 人 获得 贷款 ,另外 6 ACER: 83 AR Mi AC CT20 3E SE fi Bu 


Infor(D). 


9 6 6 
15 jg X dom qz = 0.971 


@ 计算 按照 每 个 特征 进行 划分 的 期 望 信息 ,A 代表 特征 学历”,B 代表 特征 “ 婚 否 ”,C 
代表 特征 “是 否 有 车 ”,E 代表 特征 “收入 水 平 ”。 


2 2 3 3 5 2 2 3 3 
Infor(D | A) £x( 5 log; 5 5 log; Ji &x( 5 log; 5 5 log; 3 
1 
5 











Infor (D) i X log; 














Infor (D | B) Bx( 








Infor(D | C) = x Í à log; z log; sJ: &x( £ log; £) 











Infor (D | E) 3 x( < log; í : log; Ju &x( = log; : £ log: d 


@ 计算 信息 增益 。 
g(D | A)= Infor (D)— Infor (D | A)= 0.083 
g(D | B)— Infor (D)— Infor (D | B)— 0.304 
g(D | C) Infor (D)— Infor (D | C) — 0.019 
g(D | E)= Infor (D)— Infor (D | E)— 0.363 
通过 计算 可 以 得 到 不 同 特征 的 信息 增益 ,其 中 B 和 EE 的 信息 增益 较 大 ,A 和 C 的 信息 
增益 较 小 。 信 息 增 益 越 大 ,表明 该 特征 越 重要 ,在 一 些 分 类 算法 中 可 以 根据 信息 增益 的 大 小 
选择 最 合适 的 特征 。 


3. 信息 增益 率 


在 按 特征 选择 的 过 程 中 ,会 涉及 特征 的 划分 ,以 信息 增益 作为 指标 会 有 一 定 的 不 足 。 最 
大 信息 增益 会 偏向 于 特征 值 较 多 的 特征 ,如 果 某 一 个 特征 的 值 和 记录 数量 一 样 多 ,例如 
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10 个 记录 ,身高 特征 的 值 都 不 相同 , 则 在 进行 特征 选择 的 时 候 这 个 特征 就 会 被 选中 。 这 时 
可 以 使 用 信息 增益 率 进行 特征 的 划分 或 纠正 。 

信息 增益 率 是 指 按照 某 一 特征 A 进行 划分 的 信息 增益 与 数据 集合 D 关于 这 个 特征 的 
fan. BD. 
g(D|A 








=z gA) . 5 
g (DA) SplitInfor4CGD) ec» 
其 中 ， 
» [Dil (121) 
SplitI D -Xl d (7-6) 
plitInfora (D) > [D|] Og» [D] 


分 裂 信息 SplitInfora (D) 用 来 衡量 属性 分 裂 数据 的 广度 和 均匀 。 

例 7.2 信息 增益 率 的 计算 。 

基于 例 7. 1 的 数据 ,计算 按照 每 个 特征 进行 划分 的 信息 增益 率 。 

解 : 

CD 根据 例 7. 1 计算 出 的 按照 每 个 特征 划分 的 信息 增益 ,A 代表 特征 “学 历 ”,B 代表 特 
征 “ 婚 否 ”,C 代表 特征 “是 否 有 车 ”,E 代表 特征 “收入 水 平 ”, 计 算 SplitInfora (D). 























Tw 5 5 5. 5 5 5 
SplitInfor4 (D) 15 x log: + 15 X log; 15 15 X log; 15 0. 88 
@ 按照 公式 (7-5) 计 算 信息 增益 率 。 
0.083 _ 
g,(D,A)= Teg 一 0.094 
_ 0.304 _ 
g,(D,B)= 088 一 0.345 
g, (D.C) — 9: E = 0.022 
aa 063 — 
g (D:E)= 88 
4. 基尼 指数 


基尼 指数 是 用 来 度量 数据 分 区 或 者 训练 数据 不 纯度 的 ,数据 分 区 是 指 为 了 将 整体 数据 
按照 一 定 准则 分 别 把 数据 分 成 不 同 的 区 间 。 基 尼 指 数 定义 为 


Gini(D)- 1— 2) 2 GD 


Eh, p ERRERA D 中 任何 一 个 记录 属于 C; 类 的 概率 ， eraat Io api. 


[C.» | & D 中 属于 Ci 类 的 集合 的 记录 个 数 ,|D| 是 所 有 记录 的 个 数 。 如 果 所 有 的 记录 都 属 
于 同一 个 类 , 则 p; 二 1,m 是 分 区 数量 。 基 尼 指 数 考虑 的 是 二 元 化 ,即将 某 一 特征 中 的 数值 
分 为 两 个 子 集 ,然后 进行 划分 。 如 果 按 照 特征 A 作为 数据 的 二 元 划分 准则 将 D 分 成 Di 和 
D, , WJ D 的 基尼 指数 为 


Gini (D) (ilein + 名 [Gmcp) (7-8) 


对 于 属性 A 的 二 元 划分 导致 的 不 纯度 降低 为 
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AGini (A) = Gini (D)— Gini4 (D) (7-9) 
基尼 指数 偏向 于 产生 具有 和 较 多 值 的 属性 ,而 且 当 类 的 数量 很 大 的 时 候 会 有 困难 , 且 偏 向 
于 导致 相等 大 小 的 分 区 和 纯度 。 


例 7.3 计算 属性 的 不 纯度 降低 值 。 

根据 表 7-1 中 的 数据 计算 各 个 属性 的 基尼 指数 。 
解 : 

使 用 基尼 指数 利用 公式 (7-7) 计 算 D 的 不 纯度 。 


ini (DY— 9yY (ey 
Gini (D) - 1— (3) (£) = 0.48 


© 计算 属性 “学 历 " 的 基尼 指数 。 此 特征 有 三 个 取 值 :“ 专 科 ”“ 本 科 ”“ 研 究 生 ”"。 所 以 
划分 值 有 3 个 , 即 3 种 划分 集合 ,分 别 如 下 。 

CD 以 “专科 ”划分 : {专科 } 、{ 本 科 、 研 究 生 }。 

(2) 以 “本 科 ” 划 分 : {本 科 }、{ 专 科 、 研 究 生 }。 

(3) 以 “研究 生 ” 划 分 : {研究 生 }、{ 专 科 、 本 科 }。 

考虑 集合 {研究 生 }) 、{ 本 科 , 专 科 },D 被 划分 成 两 个 部 分 ,基于 这 样 的 划分 计算 基尼 指 
数 为 


ee D= T6Gini (D, ) 十 E Gini D) 


2 [pub . T DASR th JR FE" SZ J” Ut SE DU AE JE Ti C. PEE E JE i Cg] LE 29 I ETE 
历 ” 的 基尼 指数 ,同样 可 以 求 出 每 个 属性 的 基尼 指数 。 


5. 过 拟 合 


通常 ,模型 为 了 较 好 地 拟 合 训练 数据 会 变 得 比较 复杂 ,模型 复杂 的 表现 就 是 参数 过 多 。 
虽然 模型 在 训练 数据 上 有 较 好 的 效果 ,但 是 对 未 知 的 测试 数据 可 能 结果 会 不 好 ,这 种 现象 称 
为 过 拟 合 。 

通过 加 入 正则 化 项 控制 模型 的 复杂 度 ,或 者 进行 交叉 验证 ,可 以 有 效 地 避免 过 拟 合 。 


7.1.3 分 类 的 评价 指标 


训练 分 类 模型 后 ,如 何 评价 模型 的 好 坏 是 一 个 很 关键 的 问题 。 目 前 ,评价 分 类 模型 好 坏 
常用 的 指标 有 准确 率 、 召 回 率 和 下 值 等 。 假 设 预测 结果 包含 以 下 4 种 。 

* TP: 指 分 类 器 将 正 类 预测 为 正 类 的 个 数 。 

* FP: 指 分 类 器 将 负 类 预测 为 正 类 的 个 数 。 

* TN: 指 分 类 器 将 负 类 预测 为 负 类 的 个 数 。 

。 FN: 指 分 类 器 将 正 类 预测 为 负 类 的 个 数 。 


1. 准确 率 


算法 预测 结果 的 准确 率 是 最 常用 且 最 有 效 的 一 个 评价 指标 ,准确 率 的 定义 是 预测 对 的 
数量 除 以 预测 的 总 数 ,计算 公式 如 (7-10) 所 示 。 


TP +TN 


PTN (7-10) 





accuracy = 
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其 中 已 和 分 别 是 正和 负 的 样本 数 。 
2. 召回 率 


召回 率 用 来 评价 模型 的 灵敏 度 和 识别 率 , 它 定义 为 被 正确 预测 的 正 类 占 总 正 样 数 的 比 
例 ,计算 公式 如 (7-11) 所 示 。 
recall — TP TP 


P TP+FN ilice 


3. F Ë 
F 值 是 衡量 综合 准确 率 和 召回 率 的 评价 指标 ,计算 公式 如 (7-12) 所 示 。 


2 X accuracy X recall 


F = 
accuracy + recall 


(7-12) 


7.2 决策 树 


7.2.1 决策 树 基本 概念 


决策 树 算法 自 20 世纪 60 年 代 被 提出 以 来 被 广泛 应 用 在 规则 提取 、 预 测 、 分 类 等 领域 ， 
自从 Quinlan F 1986 年 提出 ID3 算法 以 后 ,决策 树 算法 也 被 广泛 应 用 到 机 器 学 习 领 域 。 例 
如 ,可 以 根据 历史 数据 使 用 决策 树 进 行 分 类 预测 。 决 策 树 算法 主要 分 为 分 类 和 预测 两 个 方 
面 , 本 节 主 要 介绍 在 分 类 方面 的 应 用 。 

决策 树 算法 的 基础 是 二 叉 树 ,如 图 7-2 所 示 ,但 不 是 所 有 的 决策 树 都 是 二 又 树 , 还 有 可 
能 是 多 又 树 。 决 策 树 是 一 个 自 上 而 下 的 由 节点 和 有 向 边 组 成 的 树 , 其 中 , 圆 形 节点 代表 内 部 
节点 ( 根 节点 和 父 节点 ), 每 个 内 部 节点 表示 在 一 个 属性 上 的 测试 ,每 个 分 支 代表 一 个 测试 输 
出 ,矩形 代表 叶 节 点 ,每 个 叶 节 点 代表 一 种 类 别 , 也 就 是 决策 树 的 输出 类 别 。 


























图 7-2 决策 树 结构 


决策 树 的 向 下 分 裂 采用 fthen 规则 ,简单 来 说 就 是 当 条 件 满足 分 裂 节点 的 某 一 种 情况 
时 ,就 朝 着 满足 条 件 的 那个 方向 向 下 生长 ,直到 到 达 叶子 节点 , 即 类 别 。 


决策 树 学 习 算 法 的 最 大 优点 是 它 可 以 自学 习 ,算法 清晰 简单 且 被 广泛 应 用 。 
7.2.2 决策 树 分 类 器 的 算法 过 程 


决策 树 分 类 器 的 本 质 是 利用 训练 数据 构造 一 棵 决策 树 , 然 后 用 这 棵 决策 树 所 提炼 出 来 
的 规则 进行 预测 。 

决策 树 的 算法 过 程 大 体 分 为 两 步 : 首先 利用 训练 数据 构造 决策 树 , 然 后 利用 构造 的 决 
策 树 进行 预测 。 

(1) 构造 决策 树 

决策 树 的 构造 是 采用 自 上 而 下 递归 的 方式 贪心 构造 , 即 没有 回溯 。 训 练 数据 规模 随 着 
决策 树 的 构造 会 变 得 越 来 越 小 。 这 里 需要 注意 的 是 ,通常 在 构造 决策 树 的 过 程 中 ,已 经 使 用 
过 的 作为 分 裂 属 性 的 特征 就 不 能 再 继续 使 用 了 。 用 自然 语言 描述 决策 树 构造 的 过 程 如 下 。 

CD 输入 数据 ,主要 包括 训练 集 的 特征 和 类 标号 。 

© 选取 一 个 属性 作为 根 节点 的 分 裂 属性 进行 分 裂 。 

O 对 于 分 裂 的 每 个 分 支 ,如 果 已 经 属于 同一 类 就 不 再 分 裂 , 如 果 不 是 同一 类 ,依次 选取 
不 同 的 特征 作为 分 裂 属 性 进行 分 裂 ,同时 删除 已 经 选 过 的 分 裂 属性 。 

O 不 断 地 重复 @ ,直到 到 达 叶 子 节点 , 即 决策 树 的 最 后 一 层 , 此 时 这 个 节点 下 的 数据 都 
属于 一 类 了 。 

C) 最 后 得 到 每 个 叶子 节点 对 应 的 类 标签 以 及 到 达 这 个 叶子 节点 的 路 径 。 

(2) 决策 树 的 预测 

得 到 由 训练 数据 构造 的 决策 树 以 后 ,就 可 以 进行 预测 了 , 当 待 预测 的 数据 输入 决策 树 的 
时 候 , 根 据 分 裂 属性 以 及 分 裂 规 则 进行 分 裂 , 最 后 即 可 确定 所 属 的 类 别 。 

决策 树 算法 伪 代 码 。 


算法 :Generate decision tree。 由 数据 划分 D 的 训练 元 组 产生 决策 树 
输入 : 
数据 划分 D 是 训练 元 组 和 对 应 类 标号 的 集合 ; 
attribute list, 候 选 属性 的 集合 ; 
Attribute selection method, 一 个 确定 "最 好 "地 划分 数据 元 组 为 个 体 类 的 分 裂 准则 的 过 程 。 
这 个 准则 由 分 裂 属性 和 分 裂 节 点 或 分 裂 子 集 组 成 
输出 :一 棵 决策 树 
方法 : 
创建 一 个 节点 N 
iD 中 的 元 组 都 是 同一 类 c then 
返回 作为 叶 节点 ,以 类 Cc 标记 ; 
if attribute list 为 空 then 
返回 NN 作为 叶 节 点 ,标记 为 D 中 的 多 数 类 ; // 多 数 表决 
使 用 特征 选择 , 找 出 "最 好 "的 splitting criterion; 
用 splitting criterion 标 记 节 点 N; 


if splitting criterion 是 离散 值 的 ,并 且 允 许多 路 划分 then // 不 限于 二 叉 树 
attribute list + attribute list- splitting attribute; // 删 除 划分 属性 
for splitting criterion 的 每 个 输出 j // 划 分 元 组 并 对 每 个 划分 产生 子 树 


设 是 D 中 满足 输出 j 的 数据 元 组 的 集合 ; // 一 个 划分 
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if 为 空 then 
加 一 个 树叶 到 节点 N, 标 记 为 D 中 的 多 数 类 ; 


else 加 一 个 由 Generate decision tree(,attribute list) 返 回 的 节点 到 节点 N; 


end for 

返回 N; 

例 7.4 决策 树 的 构造 和 预测 。 

请 使 用 如 表 7-2 所 示 的 训练 数据 构造 决策 树 。 


表 7-2 构造 决策 树 的 训练 数据 





收 入 学 历 信用 等 级 
2210000 本 科 良好 
3000 一 10000 本 科 良好 
—3000 高 中 一 般 


D HAAR Infor(D). 








Infor (D) s X log; 3 


1 1 
3 X log; 3 = 0.276 


@ 计算 按照 每 个 特征 进行 划分 的 期 望 信息 ,A 代表 特征 “收入 ”,B 代表 特征 “学 历 ”。 


1 








Infor (D | A) 


1 


Li 1 logi) + X ( 1 log:1)+4 Lx ilogiye0 


1 








3 
Infor (D | B) : x [ ; log; l : log; 
@ 计算 信息 增益 。 


2 


z X (— 1 log1)= 0. 201 


g(D | A)= Infor (D)— Infor (D | A)= 0.276 
g(D | B)— Infor (D)— Infor (D | B) — 0.075 


选择 信息 增益 最 大 的 属性 作为 第 一 个 分 裂 节 点 ,然后 数据 被 分 为 两 部 分 ,每 部 分 依次 按 


照 同样 的 方法 进行 划分 。 当 所 有 的 属性 划分 完毕 或 者 
决策 树 的 深度 达到 预先 设置 的 要 求 时 ,得 到 一 个 具有 分 
类 能 力 的 决策 树 , 如 图 7-3 所 示 。 

使 用 构造 好 的 决策 树 进行 预测 的 时 候 , 根 据 每 个 节 
点 的 划分 即 可 得 到 最 后 的 类 别 。 例 如 测试 数据 是 : 收 
入 二 20000, 学 历 为 研究 生 。 根 据 以 上 分 类 决策 树 进行 
预测 ,他 的 信用 等 级 是 良好 。 

构造 决策 树 过 程 中 的 关键 问题 是 如 何 确定 分 裂 节 
点 的 分 裂 属 性 。 根 据 分 裂 属性 的 选取 标准 的 不 同 ,决策 



































图 7-3 决策 树 的 构造 过 程 


树 算法 可 以 分 为 ID3 和 C4.5, 下 面 将 分 别 介绍 这 两 种 算法 。 


7.2.3 ID3 算法 


ID3 算法 是 J. Rose Quinlan 提出 的 一 种 决策 树 算 法 ,属于 传统 
法 的 构建 方法 和 决策 树 的 构建 基本 一 致 ,不 同 的 是 分 裂 节点 的 特征 选择 的 标准 。 该 算法 在 


分 裂 节点 处 将 信息 增益 作为 分 裂 准 则 进行 特征 选择 ,递归 地 构建 决策 树 。 


念 学 习 算 法 。ID3 算 


ID3 算法 的 步骤 如 下 。 

CD 输入 数据 ,主要 包括 训练 集 的 特征 和 类 标号 。 

O 如 果 所 有 实例 都 属于 一 个 类 别 , 则 决策 树 是 一 个 单 节点 树 , 否 则 执行 @ 。 

@ 计算 训练 数据 中 每 个 特征 的 信息 增益 。 

CD. 从 根 节点 开始 选择 最 大 信息 增益 的 特征 进行 分 裂 。 依 次 类 推 ,从 上 向 下 构建 决策 
树 ,每 次 选择 具有 最 大 信息 增益 的 特征 进行 分 裂 , 选 过 的 特征 后 面 就 不 能 继续 进行 选择 使 
RT. 

C) 重复 步骤 @, 直 到 没有 特征 可 以 选择 或 者 分 裂 后 的 所 有 元 组 属于 同一 类 别 时 停止 
构建 。 

@ 决策 树 构建 完成 ,进行 预测 。 

ID3 决策 树 算法 伪 代 码 。 


算法 :Generate_decision tree。 由 数据 划分 D 的 训练 元 组 产生 决策 树 
输入 : 
数据 划分 D 是 训练 元 组 和 对 应 类 标号 的 集合 ; 
attribute list, 候 选 属性 的 集合 ; 
Attribute_selection_method, 一 个 确定 "最 好 "地 划分 数据 元 组 为 个 体 类 的 分 裂 准 则 的 过 程 。 这 个 
准则 由 分 裂 属性 和 分 裂 节点 或 分 裂 子 集 组 成 
输出 :一 棵 决策 树 
方法 : 
创建 一 个 节点 N; 
if D 中 的 元 组 都 是 同一 类 c then 
返回 N 作 为 叶 节点 ,以 类 Cc 标 记 ; 
if attribute list 为 空 then 
返回 N 作 为 叶 节点 ,标记 为 D 中 的 多 数 类 ; // 多 数 表决 
按照 最 大 信息 增益 的 准则 , 找 出 "最 好 "的 splitting criterion; 
用 splitting criterion 标记 节点 N; 


if splitting criterion 是 离散 值 的 ,并 且 人 允许 多 路 划分 then // 不 限于 二 叉 树 
attribute list + attribute list- splitting attribute; 

for splitting criterion 的 每 个 输出 j // 划 分 元 组 并 对 每 个 划分 产生 子 树 
设 mm 是 D 中 满足 输出 j 的 数据 元 组 的 集合 ; // 一 个 划分 


if DD 为 空 then 
加 一 个 树叶 到 节点 N, 标 记 为 D 中 的 多 数 类 ; 

else 加 一 个 由 Generate decision tree 返 回 的 节点 到 节点 N; 
end for 
返回 N; 
例 7.5 使 用 ID3 算法 进行 分 类 预测 。 
训练 数据 如 表 7-3 所 示 。 

表 7-3 贷款 申请 的 训练 数据 





ID 年 龄 婚 否 ERAF 身高 范围 类 别 
1 青年 否 否 中 否 
2 青年 否 £ 高 否 
3 青年 是 5 高 是 




















147 


18 数据 分 析 与 数据 挖 氢 























续 表 
ID 年 龄 婚 否 是 否 有 车 身高 范围 类 别 
4 青年 是 是 中 是 
5 青年 否 否 中 否 
6 中 年 F 8 中 否 
7 中 年 F 8 m T 
8 中 年 是 是 高 是 
9 中 年 否 是 很 高 是 
10 中 年 否 是 很 高 是 
11 老年 否 是 很 高 是 
12 老年 否 是 高 是 
13 老年 是 否 高 是 
14 老年 是 否 很 高 是 
15 老年 否 5 中 5 
测试 数据 如 表 7-4 所 示 。 
表 7-4 贷款 申请 的 测试 数据 

ID 年 龄 LI 是 否 有 车 身高 范围 

1 青年 否 否 中 

中 年 否 T 高 

3 老年 是 5 高 


CD 根据 训练 数据 构造 ID3 算法 的 决策 树 ,其 中 Z 代表 训练 集 ,A、B、C、D 分 别 代表 年 
龄 . 婚 否 .是 否 有 车 .身高 范围 ,按照 每 个 特征 计算 其 分 裂 的 信息 增益 。 
g(Z | A)= Infor (Z)— Infor (Z | A)= 0.083 
g(Z | B)= Infor (Z)— Infor (Z | B)= 0.324 
g(Z | C)= Infor (Z)— Infor (Z | C)= 0.420 
g(Z | D)= Infor (Z)— Infor (Z | D)= 0.363 
© 选择 信息 增益 最 大 特征 "是否 有 车 ”作为 根 节点 的 分 裂 属性 ,将 训练 集 Z 划分 为 2 个 
TÆ Z1 和 2Z, ,其 中 ,Zi 取 值 为 “是 ”,Z, 取 值 为 “ 否 ”, 由 于 Zi 只 有 一 类 数据 ,所 以 它 成 为 一 个 
叶 节 点 ,节点 的 标签 为 "是 ~。 对 2 继续 进行 分 裂 , 选 择 剩余 特征 中 信息 增益 最 大 的 作为 分 
裂 属 性 。 
g(Z, | A)= Infor (Z. )— Infor (Z; | A) — 0.251 
g(Z, | B)— Infor (Z,)— Infor (Z: | B)— 0.918 
g(Z, | D)— Infor (Z, )— Infor (Z: | D)— 0.474 
© 选择 信息 增益 最 大 特征 “ 婚 否 ”作为 根 节点 的 分 裂 属性 ,将 数据 集 Z: 分 成 两 部 分 ,一 
部 分 对 应 “是 ”, 另 一 部 分 对 应 * 否 ”, 可 以 发 现 这 两 类 下 面 的 数据 都 各 自 属于 同一 类 ,于 是 就 
不 需要 再 继续 分 裂 。 
CD 通过 选择 两 个 特征 实现 了 ID3 决策 树 的 构建 ,如 图 7-4 所 示 。 
当 构 建 好 决策 树 之 后 ,就 可 以 对 测试 数据 进行 预测 了 ,分 别 对 编号 1、2、3 进行 预测 ,可 
以 得 到 它们 的 类 别 分 别 为 “ 否 “ 否 “是 ”。 




















图 7-4 ID3 决策 树 的 构建 


7.2.4 C4.5 算法 


C4.5 算法 也 是 决策 树 算法 的 一 种 , 它 是 对 ID3 算法 的 改进 ,因为 ID3 算法 在 分 裂 属性 
的 选择 上 使 用 最 大 信息 增益 ,这 会 造成 倾向 于 选择 数值 较 多 的 特征 ,在 某 些 情况 下 这 并 不 是 
一 个 好 的 策略 ,因为 属性 取 值 最 多 的 属性 并 不 一 定 最 优 。C4. 5 算法 在 构建 决策 树 的 时 候 ， 
分 类 属性 选择 的 是 具有 最 大 信息 增益 率 的 特征 ,这样 通过 分 裂 属性 的 信息 ,在 一 定 程度 上 避 
免 了 由 于 特征 值 太 分 散 而 造成 的 误差 ,其 过 程 如 下 。 

CD 如 果 所 有 实例 都 属于 一 个 类 别 , 则 决策 树 是 一 个 单 节 点 树 ,否则 执行 步骤 @ 。 

C) 从 根 节 点 开始 选择 最 大 信息 增益 率 的 特征 进行 分 裂 。 

@ 依次 类 推 , 从 上 向 下 构建 决策 树 ,每 次 选择 具有 最 大 信息 增益 率 的 特征 进行 分 裂 , 选 
过 的 特征 后 面 就 不 能 继续 进行 选择 使 用 了 。 

CD 重复 步骤 @, 直 至 没有 特征 可 以 选择 或 者 分 裂 后 的 所 有 元 组 属于 同一 类 别 时 停止 
构建 。 

© 决策 树 构建 完成 ,进行 预测 。 

该 算法 在 构造 决策 树 的 过 程 中 ,需要 对 数据 集 进 行 多 次 顺序 扫描 和 排序 ,因此 导致 算法 
的 效率 比较 低 。 此 外 ,C4. 5 算法 只 适合 于 能 够 驻 留 于 内 存 的 数据 集 , 当 训练 集 大 得 无 法 在 
内 存 容纳 时 ,程序 无 法 运行 。 

C4. 5 决策 树 算法 伪 代 码 。 


算法 :Generate decision tree。 由 数据 划分 D 的 训练 元 组 产生 决策 树 
输入 : 
数据 划分 D 是 训练 元 组 和 对 应 类 标号 的 集合 ; 
attribute_list, 候 选 属性 的 集合 ; 
Attribute selection method, 一 个 确定 "最 好 "地 划分 数据 元 组 为 个 体 类 的 分 裂 准 则 的 过 程 。 
这 个 准则 由 分 裂 属性 和 分 裂 点 或 分 裂 子 集 组 成 
输出 :一 棵 决策 树 
方法 : 
创建 一 个 节点 N; 
iD 中 的 元 组 都 是 同一 类 c then 
返回 NN 作为 叶 节 点 ,以 类 c 标 记 ; 
if attribute 1ist 为 空 then 
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返回 作为 叶 节 点 ,标记 为 D 中 的 多 数 类 ; // 多 数 表决 
按照 最 大 信息 增益 率 的 准则 , 找 出 最 好 的 splitting criterion; 
用 splitting criterion 标记 节点 N; 
if splitting criterion 是 离散 值 的 ,并 且 允 许多 路 划分 then 
attribute list < attribute list- splitting attribute; // 删 除 划分 属性 
for splitting criterion 的 每 个 输出 j // 划 分 元 组 并 对 每 个 划分 产生 子 树 


设 E 是 D 中 满足 输出 j 的 数据 元 组 的 集合 ; 
if 集 合 EXS then 
加 一 个 树叶 到 节点 N, 标 记 为 D 中 的 多 数 类 ; 
else 加 一 个 由 Generate decision tree(,attribute list) 返 回 的 节点 到 节点 N; 
end for 


返回 N; 


例 7.6 使 用 C4.5 算法 进行 分 类 预测 。 
训练 数据 和 测试 数据 依旧 是 表 7-3 和 表 7-4 的 数据 ,使 用 C4. 5 算法 构建 决策 树 , 然 后 


进行 预测 。 





首先 计算 按照 每 个 特征 进行 分 裂 的 信息 增益 率 , 利 用例 7. 4 得 到 的 结果 可 以 求 得 
g,(Z,A)= 208 = 0. 094 
a, (ZB) Š — 0.164 
gr(Z,C)= S = 0.433 
z.(Z,D)= $383 — 0.232 


选择 信息 增益 率 最 大 的 特征 “是 否 有 车 "作为 根 节点 的 分 类 属性 ,然后 将 训练 集 Z 划分 


Hy 2 8 ZR 2, 其 中 ,Z, 取 值 为 “是 ”,Z, 取 值 为 * 否 ”, 青 分 别 计算 每 个 子 集 的 分 裂 情 
况 , 分 裂 属 性 的 选择 依然 按照 最 大 信息 增益 率 选 取 , 这 里 需要 注意 的 是 ,在 每 个 分 支 进 行 分 
裂 的 时 候 , 不 同 分 支 的 分 裂 属 性 可 能 会 选择 相同 的 属性 进行 分 裂 ,也 就 是 说 ,各 个 分 支 的 分 
裂 互 不 影响 。 发 现 Zi; 取 值 为 "是 ”的 类 别 标签 是 单一 的 ,不 需要 继续 进行 分 裂 , 只 需要 考虑 
2 的 分 裂 情况 即 可 。 此 时 的 训练 集 Z 如 表 7-5 所 示 。 


表 7-5 个 人 信贷 训练 数据 


m 
mi 


身高 范围 类 别 





青年 
青年 
青年 
青年 
中 年 
中 年 
老年 
老年 
老年 





(€ 0 3 O0 m = own 











Dj hm Wn ry ry c Rm mi D 
dRombOxb mb d + 3 3k + 
D Mn Mn ry ry ci s mi m 





通过 计算 ,可知 按照 * 婚 否 " 这 个 属性 的 信息 增益 率 最 大 ,而 且 分 裂 后 都 是 单一 的 类 别 ， 
所 以 不 再 分 裂 。 
通过 C4. 5 算法 所 构建 的 决策 树 如 图 7-5 所 示 。 











图 7-5 构建 的 C4.5 决策 树 


7.2.5 Weka 中 使 用 C4.5 算法 进行 分 类 预测 实例 


Weka 中 没有 对 ID3 算法 进行 部 署 ,但 是 部 署 了 C4. 5 分 类 算法 ,并 封装 成 J48 分 类 器 ， 
可 以 方便 地 进行 调用 。 本 例 将 讲解 如 何 使 用 J48 分 类 器 进行 分 类 预测 。 数 据 集 采 用 的 是 
breast-cancer. arff, 目 标 是 通过 一 些 特征 预测 是 否 患 有 肺癌 ,步骤 如 下 。 

(D 打开 Weka 软件 ,进入 软件 首页 ,如 图 7-6 所 示 。 





© Weka GUI Chooser _ D x 
Program Visualization Tools Help 





图 7-6 Weka 图 形 用 户 界面 选择 器 


@ 单 击 Explorer 按钮 ,进入 Weka 主页 面 ,如 图 7-7 所 示 。 

© 单 击 图 7-7 中 的 Open file... 按 钮 ,选择 breast-cancer. arff 文件 ,引入 数据 集 , 如 
图 7-8 所 示 。 可 以 看 到 数据 的 一 些 统计 特性 ,如 分 布 .均值 .最 大 值 等 。 

GD 单 击 Edit... T £l ,弹出 Viewer 窗口 , 列 出 数据 集中 的 全 部 数据 。 该 窗口 以 二 维 表 的 
形式 展现 数据 ,用 户 可 以 查看 和 编辑 整个 数据 集 , 如 图 7-9 所 示 。 每 条 信息 有 10 个 属性 ,分 
别 为 age( 病 人 年 龄 ) .menopause( 更 年 期 ) tumorsize( 肿 瘤 大 小 ) .inv-nodes( 受 侵 淋 巴结 
数 ) .node-caps( 有 无 结 点 帽 ) .deg-malig( 亚 性 肿瘤 程度 ) ,breast( 肿 块 位 置 ) ,breastrquad( 肿 
块 所 在 象限 ) \irradiat( 是 否 放疗 ) class ERRE). ERRUR (10 — 19', 20 — 291,30 — 39", 
407 49',50—59', 60 —69',70— 79. 80—89'.90—99') ,每 10 岁 为 一 个 区 间 ;menopause 取 值 


151 


数据 分 析 与 数据 挖 气 





图 7-7 Weka 主页 面 





图 7-8 打开 breast-cancer. arff 数据 集 





15-49 02 left up recur. 
15-19 central no-rec. 
35-39 left low recur.. 
3539 left low norec. 
30-34 right up. recurr. 
25.20 left up 

40-44 left up 


10-14 lef_up 
o4 right Jow 
40-44 left up 
2529 left low 
1519 lef up 
3034 

2529 

2529 

2024 

10-314 

15-19 

40-44 

20-24 

20-24 

40-44 

1519 

1014 

1519 

20-24 

1014 

10-14 

30-34 

1519 

30-34 

25-29 

25-29 











图 7-9 breast-cancer. arff 数据 集 编辑 器 对 话 框 


为 lt40 .ge40 或 premono; tumor-size JR ffi Jg 1'0—4','5—9','10—14','15—19','20—24','25— 
29','30—34','35—39','40—44','45—49','50—54','55—59"),# 5 个 大 小 为 一 个 阶段 ;inv 一 
nodes 取 值 为 : (0—2',8—5',6—8',9 —11',12— 14,15 —17',18—20',21— 23,24 — 26", 
27—29'.80—32',33—35'.86—39'] ,每 3 个 受 侵 淋 巴 数 为 一 个 阶段 ;node-caps 取 值 为 yes 
或 no;deg-malig 取 值 为 1、2、3;breast 取 值 为 left 或 right: breast-quad 取 值 为 left_up、left_ 
low,right up, right_low, central; irradiat 取 值 为 yes 或 no; class 取 值 为 no-recurrence- 
events 或 recurrence-events。 以 第 1 行为 例 , 病 人 年 龄 为 40 一 49, 更 年 期 为 premeno, 肿 瘤 大 小 
为 15 一 19, 受 侵 淋 巴结 数 为 0 一 2, 有 “” 结 点 帽 ”, 恶 性 肿瘤 程度 为 3, 肿 块 位 置 为 right, 肿 块 所 在 
象限 为 left_up ,是 否 放疗 为 no, 是 否 复发 为 recurrence-events。 单 击 OK 按钮 ,返回 图 7-8, 

© 在 图 7-8 中 ,选择 Classify 选项 卡 ,如 图 7-10 所 示 。 

© Æ Classifier 选项 中 , 单 击 Choose 按钮 ,出 现 如 图 7-11 所 示 的 分 类 器 类 型 的 树 形 
结构 。 

CD 打开 trees 文件 夹 ,选择 J48, 即 C4. 5 分 类 器 ,如 图 7-12 所 示 。 在 Choose 按钮 后 面 
的 文本 框 中 可 以 看 到 J48 分 类 器 的 一 些 基本 信息 。 

单 击 J48 分 类 器 的 基本 信息 框 ,出 现 参数 窗口 ,如 图 7-13 所 示 , 其 中 的 主要 参数 解释 
如 下 。binarySplits( 二 元 分 类 ): 构建 局 部 树 时 是 否 使 用 二 元 分 裂 特征 ;minNumObj( 最 少 
对 象 数目 ) : 每 条 规则 实例 的 最 小 数目 ;seed( 种 子 ): 使 用 减少 错误 修剪 时 ,用 于 随机 化 数据 
的 种 子 ;unpruned( 不 剪 枝 ) : 是 否 进行 剪 枝 。 

O 设置 好 参数 之 后 , 单 击 OK 按钮 ,返回 图 7-12 .选择 Test options 下 的 Use training 
set. Hi Start 按钮 ,将 出 现 J48 的 分 类 结果 ,如 图 7-14 所 示 。 
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图 7-10 Weka 分 类 器 选择 页 面 





Q Weka Explorer o x 























图 7-11 选择 C4.5 分 类 器 








图 7-12 J48 分 类 器 基本 信息 


Class for generating a pruned or unpruned C4. 


L 


| 


| 


— — 





图 7-13 J48 分 类 器 的 参数 
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41 71.9298 + 
16 28.0702 + 
0.2995 

0.3707 

0.4619 

83.7729 + 

94.2422 + 

57 


一 Detailed Accuracy By Class — 


TP Rate FP Rate Precision Recall 
0.972 0.714 0.700 0.972 
0.286 — 0.028 — 0.857 0.286 
Weighted Avg. — 0.719 — 0.461 — 0.758 0.719 


=== Confusion Matrix === 





图 7-14 J48 分 类 器 结果 的 详细 信息 


图 7-14 右 侧 显示 了 分 类 输出 ,包括 对 训练 集 的 评估 ,总 结 、 分 类 的 详细 的 准确 度 和 模糊 
和 矩阵。 在 评估 训练 集 和 总 结 处 ,正确 分 类 的 实例 数 为 41 ,准确 率 达到 71. 9298% ,平均 绝对 
误差 为 0. 3707 ,平均 根 方差 为 0.4619。 在 分 类 的 准确 度 处 ,描述 了 准确 率 、 精 确 度 、 召 回 率 
等 方面 。 


7.2.6 决策 树 的 剪 枝 


决策 树 使 用 递归 的 方法 从 上 向 下 构建 决策 树 ,产生 的 决策 树 可 以 最 大 限度 地 拟 合 训练 
数据 ,但 是 对 测试 数据 进行 预测 的 时 候 可 能 不 是 很 准确 , 即 常 说 的 过 拟 合 。 解 决 方法 是 降低 
模型 的 复杂 度 ,也 就 是 进行 决策 树 的 剪 枝 操 作 。 常 见 的 决策 树 剪 枝 操 作 分 为 先 剪 枝 和 后 
NE. 

先 剪 枝 就 是 在 构建 决策 树 的 过 程 中 进行 剪 枝 , 以 ID3 算法 构建 决策 树 为 例 , 当 信息 增益 
达到 预先 设 定 的 阔 值 时 就 不 再 进行 分 裂 ,直接 将 这 个 节点 作为 叶子 节点 , 取 叶 子 节点 中 出 现 
频率 最 多 的 类 别 作为 此 叶子 节点 的 类 标签 。 

后 剪 枝 就 是 在 决策 树 建 好 之 后 ,再 对 整个 树 进 行 剪 枝 操作 ,具体 方法 就 是 计算 每 个 内 部 
的 节点 剪 枝 前 和 前 枝 后 的 损失 函数 ,按照 最 小 化 损失 函数 的 原则 进行 剪 枝 或 者 保留 此 节点 ， 
下 面 详细 介 绍 决 策 树 的 损失 函数 和 后 剪 枝 操 作 。 


1. 决策 树 的 损失 函数 


损失 函数 由 模型 的 错误 率 和 模型 的 复杂 度 两 部 分 组 成 。 假 设 决策 树 共有 工 个 节点 ,t 
是 一 个 叶子 节点 ,该 叶 节点 有 NN, 个 样本 点 ,其 中 ,KK 类 的 样本 点 有 Na 个 ,k 二 1,2,…,K, 损 
失 函 数 定义 为 


L, = >) NH, +aT (7-13) 
其 中 ,HH, 是 叶 节 点 的 经 验 炉 

H,—— > Nils N (7-14) 
a(a 宇 0) 是 平衡 决策 树 的 复杂 度 和 误差 率 的 系数 , 当 a 较 大 时 ,能 够 促使 模型 在 训练 集 


有 较 好 的 准确 率 ,但 是 模型 复杂 度 就 会 很 大 ;相反 , 当 a 较 小 时 ,模型 在 训练 集 的 准确 率 不 太 
好 ,但 是 模型 的 复杂 度 会 降低 。 


2. 决策 树 的 后 剪 枝 


当 构 建 好 决策 树 后 ,从 下 向 上 计算 每 个 节点 的 经 验 炉 ,递归 地 从 决策 树 的 叶子 节点 进行 
回 缩 ,通过 计算 回 缩 前 后 的 损失 函数 并 进行 比较 ,可 以 判断 是 否 进行 剪 枝 , 需 要 注意 的 是 ,前 
枝 可 以 只 在 某 一 部 分 进行 , 即 局 部 剪 枝 , 这 大 大 提高 了 剪 枝 的 效率 。 一 棵 决策 树 从 根 节 点 出 
发 ,如 果 去 除 左 子 树 后 使 损失 函数 变 小 , 则 前 去 左 侧 ; 如 果 去 除 右 子 树 后 使 损失 函数 变 小 , 则 
剪 去 右 子 树 , 从 上 向 下 ,依次 进行 。 图 7-15 展示 了 决策 树 剪 枝 的 过 程 。 

剪 枝 后 得 到 新 的 决策 树 , 如 图 7-16 所 示 。 























是 E 是 "5 是 否 
图 7-15 决策 树 的 剪 枝 过 程 图 7-16 和 剪 枝 后 的 决策 树 






































7.2.7 随机 森林 算法 


对 于 ID3 和 C4. 5 决策 树 算法 ,它们 的 基本 思想 都 是 生成 一 棵 决策 树 , 即 所 有 的 特征 共 
同 构造 成 一 棵 决策 树 ,然后 用 这 棵 决策 树 实现 分 类 预测 功能 。 虽 然 可 以 对 决策 树 进行 一 定 
程度 的 剪 枝 , 但 是 仍然 无 法 避免 过 拟 合 现象 的 发 生 。 随 机 森林 算法 是 20 世纪 80 年 代 
Breiman 等 人 提出 的 ,其 基本 思想 就 是 构造 多 棵 决策 树 ,形成 一 个 森林 ,然后 用 这 些 决 策 树 
共同 决策 输出 类 别 。 随 机 森林 算法 是 构建 在 单一 决策 树 的 基础 上 的 ,同时 是 单一 决策 树 算 
法 的 延伸 和 改进 。 在 整个 随机 森林 算法 的 过 程 中 有 两 个 随机 过 程 ,第 一 个 是 输入 数据 是 随 
机 地 从 整体 的 训练 数据 中 选取 一 部 分 作为 一 棵 决策 树 的 构建 ,而 且 是 有 放 回 的 选取 ;第 二 个 
是 每 棵 决策 树 的 构建 所 需 的 特征 是 从 整体 的 特征 集中 随机 选取 的 ,这 两 个 随机 过 程 使 随机 
森林 在 很 大 程度 上 避免 了 过 拟 合 现象 的 出 现 。 其 具体 过 程 如 下 。 

CD 从 训练 数据 中 选取 个 数据 作为 训练 数据 输入 ,一 般 情况 下 ,n 是 远 小 于 整体 训练 
数据 个 数 N 的 ,这 样 就 会 造成 一 部 分 数据 无 法 被 取 到 ,这 部 分 数据 称 为 袋 外 数据 ,可 以 使 用 
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袋 外 数据 进行 误差 估计 。 

© 选取 输入 的 训练 数据 之 后 ,就 需要 构建 决策 树 , 具 体 方法 是 每 一 个 分 裂 节 点 从 整体 
特征 集 M 中 选取 wm 个 特征 构建 ,一 般 情 况 下 m M. 

C) 在 构造 每 棵 决策 树 的 过 程 中 ,按照 选择 最 小 的 基尼 指数 选取 分 裂 节点 的 规则 进行 决 
策 树 的 构建 。 决 策 树 的 其 他 节点 都 采取 相同 的 分 裂 规 则 进行 构建 ,直到 该 节点 的 所 有 训练 
样 例 都 属于 同一 类 或 者 达到 树 的 最 大 深度 。 

CD 重复 @@ 和 回 多 次 ,每 一 次 输入 数据 对 应 一 颗 决 策 树 ,这样 就 得 到 了 随机 森林 ,可 以 用 
来 对 预测 数据 进行 决策 。 

© 多 棵 决策 树 构建 结束 以 后 ,就 可 以 对 待 预 测 数据 进行 预测 ,如 输入 一 个 待 预测 数据 ， 
然后 多 棵 决策 树 同时 进行 决策 ,最 后 采用 多 数 投票 (票数 相等 则 随机 取 值 ) 的 方式 进行 类 别 





























的 决策 。 
随机 森林 的 建立 和 预测 过 程 如 图 7-17 所 示 。 
构建 多 棵 决策 树 
H Q Ë 
ü E> E= " Ey 投票 
n f 输出 结果 
练 Hi 
数 
据 J 





















































] 
图 7-17 随机 森林 的 建立 和 预测 过 程 








在 使 用 随机 森林 算法 时 ,需要 注意 以 下 几 点 。 

(1) 在 构建 决策 树 的 过 程 中 是 不 需要 剪 枝 的 。 

(2) 整个 森林 的 树 的 数量 和 每 棵 树 的 特征 需要 人 为 进行 设 定 。 

(3) 构建 决策 树 的 时 候 , 分 裂 节点 的 选择 是 依据 最 小 基尼 系数 的 。 

随机 森林 算法 有 如 下 优点 。 

CD 在 数据 集 上 表现 良好 ,两 个 随机 性 的 引入 使 随机 森林 算法 不 容易 陷入 过 拟 合 。 

(2) 两 个 随机 性 的 引入 ,使 随机 森林 算法 具有 很 好 的 抗 噪声 能 力 。 

(3) 它 能 够 处 理 很 高 维度 (很 多 特征 ) 的 数据 ,并 且 不 用 进行 特征 选择 ,对 数据 集 的 适应 
能 力 强 , 既 能 处 理 离 散 型 数据 ,也 能 处 理 连 续 型 数据 .数据 集 无 须 规范 化 。 

(4) 在 创建 随机 森林 的 时 候 , 对 泛 化 误差 (Generlization Error) 使 用 无 偏 估计 。 

(5) 训练 速度 快 ,可 以 得 到 变量 重要 性 排序 。 


(6) 在 训练 过 程 中 能 够 检测 特征 间 的 互相 影响 。 

(7) 容易 实现 并 行 化 处 理 。 

(8) 实现 比较 简单 。 

例 7.7 使 用 随机 森林 分 类 算法 进行 分 类 预测 。 

训练 数据 是 表 7-6 所 示 的 数据 。 为 了 更 方便 地 说 明 算法 的 使 用 , 设 定 随机 森林 树 的 数 
目 为 3, 构建 每 棵 树 的 时 候 随 机 选择 的 特征 数 为 2, 树 的 深度 为 3。 在 实际 使 用 过 程 中 ,随机 
选择 特征 并 不 能 知道 到 底 选择 哪些 特征 ,这 里 假设 第 一 棵 树 的 第 一 个 节点 选择 了 “年 龄 ”和 
“ 婚 否 ”两 个 属性 ,然后 按照 基尼 指数 最 小 的 原则 进行 属性 的 选择 。 

构造 第 一 棵 决策 树 。 


表 7-6 个 人 身体 状况 训练 数据 





ID 年 龄 婚 否 类 别 
1 青年 "5 8 
2 青年 否 8 
3 青年 是 是 
4 青年 是 是 
5 青年 否 否 
6 中 年 T 否 
7 中 年 T 否 
8 中 年 是 是 
9 中 年 否 是 
10 中 年 否 是 
11 老年 否 是 
12 老年 = 是 
13 老年 是 是 
14 老年 是 是 
15 老年 G€ 否 











可 以 看 到 ,这 一 次 随机 选取 的 数据 并 不 是 很 好 ,但 是 因为 通常 随机 森林 在 选择 的 时 候 可 
以 多 次 选择 ,而 且 数据 量 没 有 这 么 小 ,所 以 此 种 情况 几乎 可 以 忽略 。 

以 A 表示 年 龄 特征 ,并 以 1,2,3 表示 青年 、 中 年 和 老年 。 以 B 表示 婚 否 特征 ,并 以 1.2 
表示 婚 否 中 的 是 和 否 。 

求 特征 A 的 基尼 指数 









































Gini (D.A = 1) &( ($) (HEG (5) (55) ) 0.44 
Gi cb» - D= (i - ($) -GJ Js (6) - (9) )- s 
Gini (D.A = 3) =Í: (3) ($))* je (>) (5) ) 0. 44 
同 理 求 特征 B 的 基尼 指数 

Gini (D.B = 1) &( (z) ($))-3 ($) (55) ) 0. 32 
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Gini (D,B = 2) w(i (S) DAE [s] EN) 0.32 
# EXEJLT-3EJE d UP .Gini(D.B=1)=0.32 最 小 , 故 选择 婚 否 特征 作为 分 裂 属 性 ， 
剩 下 的 年 龄 特征 为 下 一 个 分 裂 属 性 。 


























于 特征 B 只 有 两 个 值 , 故 只 有 一 种 划分 方法 ,所 
以 得 到 的 两 个 基尼 指数 相等 。B 取 值 为 “是 ”和 "和 否 ” 
时 ,数据 集 划 分 成 两 个 D, ( 取 值 为 “是 ”) 和 D GUEA 是 8 


"187) , 故 D 称 为 一 个 叶 节 点 ,属性 值 为 "是 ”。 
图 7-18 表示 了 婚 否 属性 分 裂 节 点 的 情况 。 
类 似 的 ,可 以 构造 其 余 的 决策 树 的 节点 最 终生 ”图 7-18 按照 婚 否 进行 分 裂 的 情况 

成 随机 森林 。 和 森林 生成 后 可 以 进行 预测 ,假设 输入 

的 测试 数据 被 三 棵 决策 树 分 类 的 标准 分 别 是 “是 “是”“ 否 ”, 那 么 最 后 这 个 数据 的 类 别 为 

是 


7.2.8 使 用 Weka 的 随机 森林 进行 分 类 预测 


Weka 内 部 的 tree 函数 中 集成 了 随机 森林 分 类 器 ,可 以 进行 分 类 运算 。 打 开 Weka $k 
件 ,然后 加 载 一 个 数据 集 , 这 里 选择 iris. arff 数据 集 , 具 体 步 又 如 下 。 
(D 打开 Weka 软件 ,进入 Weka 首页 ,如 图 7-19 所 示 。 























Q Weka GUI Chooser - 0 x 


Program Visualization Tools Help 





图 7-19 Weka 图 形 用 户 界 面 选择 器 


© 单 击 Explorer 按钮 ,进入 Weka 主页 面 ,如 图 7-20 所 示 。 

© 单 击 Open file... 按 钮 ,选择 iris. arff 文件 ,引入 数据 集 , 如 图 7-21 所 示 。 

@ 单 击 Edit... 按 钮 ,弹出 一 个 名 称 为 Viewer 的 对 话 框 , 列 出 该 数据 集中 的 全 部 数据 。 
该 窗口 以 二 维 表 的 形式 展现 数据 ,用 户 可 以 查看 和 编辑 整个 数据 集 , 如 图 7-22 Bros. Je 
花 数 据 集 是 数据 挖掘 中 常用 到 的 数据 集 ,该 数据 集 包含 三 个 营 尾 花 种 ,每 个 花 种 包含 50 个 , 共 
150 个 竟 尾 花 的 数据 。 每 个 花 的 特征 用 以 下 5 种 属性 进行 表示 : sepallength (4E 9$ KO, 
sepalwidth 4E 35 9$) .petallength( 花 瓣 长 ) petalwidth GE XR 9$ ) AI class( 类 别 )。 最 后 一 个 属性 
class 一 般 作为 类 别 属性 ,其 余 属 性 都 是 数值 ,单位 为 cm( 厘 米 )。 以 图 7-22 中 第 1 行为 例 ,该 
高 尾 花 花 葡 长 为 5.1cm, 花 莹 宽 为 3.5cm, 花 瓣 长 为 1.4cm, 花 辩 宽 为 0.2cm, 类 别 为 Tris. setosa, 

C) 单 击 图 7-22 中 的 OK 按钮 ,返回 图 7-21 ,参照 选择 C4. 5 分 类 器 的 方式 选择 随机 森 
林 分 类 器 RandomForest, 如 图 7-23 所 示 。 
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图 7-20 Weka 主页 面 








图 7-21 Iris 数据 集 的 分 布 


于 625 数据 分 析 与 数据 挖 氢 





图 7-22 数据 集 编辑 器 对 话 框 


© Weka Explorer 





( Choose J -P 100-1 100 -num-slots 1 -K 0-M 1.0 -V 0.001 -8 1 





图 7-23 选择 随机 森林 分 类 器 


@ 双击 参数 信息 栏 可 以 进行 参数 设置 ,如 图 7-24 所 示 , 其 中 主要 参数 解释 如 下 。 
maxDepth( 最 大 深度 ) : 树 的 最 大 深度 ,0 代表 无 限制 ;numFeatures( 特 征 数量 ): 用 于 随机 
选择 的 特征 数量 。 

(D 设置 好 参数 后 , 单 击 图 7-24 中 的 OK 按钮 ,返回 图 7-23, 单 击 Start 按钮 , 即 可 开始 


Class for constructing a forest of random trees. 


j 


一 
i I 
ka — —M 
Loc — — 





图 7-24 随机 森林 的 参数 
运行 ,最 后 的 结果 如 图 7-25 所 示 。 


-P 100-1 100-num-slots 1 


0.931 
0.929 
0.953 


047 3| be Iris-versicolor 
0 446 | c= Iris-virginica 


图 7-25 随机 森林 分 类 结果 
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从 图 7-25 中 可 得 , 均 方 根 误差 为 0.1621, 相 对 误差 为 9.19%, 总 用 例 数 为 150, 得 到 的 
4136 F (E Y 97g 1.0,0. 931,0. 929。 


7.3 朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 Cnaive Bayes) 分 类 是 一 种 统计 学 分 类 方法 。 朴 素 贝 叶 斯 分 类 以 贝 叶 斯 定理 
为 基础 ,从 统计 的 角度 解决 归纳 -推理 分 类 的 问题 。 首 先 给 定 一 个 未 考虑 任何 数据 的 分 布 ， 
此 分 布 称 为 先 验 分 布 ,之 后 在 新 的 数据 集 上 利用 贝 叶 斯 定理 修正 先 验 分 布 得 到 后 验 分 布 。 
通过 对 条 件 概 率 分 布 作出 条 件 独立 性 假设 ,该 方法 大 大 简化 了 分 类 器 的 计算 过 程 ,即使 针对 
大 量 数据 集 ,朴素 贝 叶 斯 也 是 一 个 相对 简单 的 计算 过 程 ,并 且 保 持 了 高 效率 的 学 习 与 预测 
性 能 。 


7.3.1 朴素 贝 叶 斯 学 习 基 本 原理 


朴素 贝 叶 斯 分 类 思想 建立 在 贝 叶 斯 定理 的 基础 上 ,首先 简单 解释 贝 叶 斯 定理 的 基本 概 
念 。 考 虑 一 个 为 给 定数 据 集 分 类 的 情境 , 设 X 是 一 个 类 标号 未 知 的 数据 样本 , 互 表示 一 个 
假设 : 数据 样本 X 属于 某 个 特定 的 类 C。 要 求 确定 PHIX) , 即 给 定 观 测 数据 样本 X 的 情 
W FEH 成 立 的 概率 。P(H|IX) 是 后 验 概率 ,是 在 给 定数 据 集 X 后 假设 互 成 立 的 概率 ; 
而 P(H) 是 数据 样本 的 先 验 概率 。 后 验 概率 PH |X) KERR P( 瓦 ) 基 于 更 多 的 信息 。 
贝 叶 斯 定理 提供 了 一 种 由 概率 PCH), POOR POX | EDIT SEG US HESS P(H|X) 的 方法 , 基 
本 关系 如 下 。 

P(H | X) = [P(X | H) ° P( H)]/P(X) (7-15) 
基于 贝 叶 斯 定理 ,朴素 贝 叶 斯 分 类 思想 如 下 。 

设 输入 空间 是 n 维 向 量 的 集合 , 取 其 中 m 个 样本 作为 训练 数据 集 ,表示 为 S= (S. 
S. S,) ,其 中 每 个 样本 S; 都 是 一 个 HEIDE (zi ias et ems ;输出 空间 是 类 标记 的 集合 ， 
表示 为 Y= 二 {C1 ,Cs,…,Ci), 取 自 输入 空间 的 每 个 样本 S; 都 与 输出 空间 中 的 一 个 类 C; 相 对 
应 。 当 给 定 另 外 一 个 类 别 未 知 的 数据 样本 X. 时 ,可 以 把 X 分 到 后 验 概 率 最 大 的 类 中 ,也 就 
是 用 最 高 的 条 件 概率 P(C;|X) 预 测 X 的 类 别 , 这 是 朴素 贝 叶 斯 分 类 的 基本 思想 。 根 据 贝 叶 
斯 定理 ,后 验 概 率 的 计算 过 程 为 

PC; | X) = [P(X | C) * PCCO ]/PCGX) (7-16) 

在 式 (7-16) 中 ,对 所 有 的 类 标记 ,分 母 P(X) 均 为 常量 ,因此 仅 须 计算 分 子 最 大 值 。 其 
中 , 先 验 概率 P(C;) 容 易 计 算 : P (C,)= 27 C; 的 训练 样本 数量 /训练 样本 总 数 m; 而 条 件 概 
率 分 布 P(X1C;) 有 指数 量 级 的 参数 ,尤其 对 于 大 量 数据 集 来 说 计算 更 为 复杂 ,其 估计 实际 
是 不 可 行 的。 事实 上 ,如 果 X 每 个 维度 的 特征 可 能 有 T; 个 取 值 ,j 二 1,2,…,n,Ci 的 可 能 取 


值 有 个 ,那么 参数 的 个 数 为 AT[ S， 。 因 此 ,朴素 贝 叶 斯 法 给 出 了 一 个 较 强 的 条 件 独立 性 
gua. 号 

R= P(X9 — 34m, ux mg | Guy = Trav | G) (7-17) 
其 中 ,是 样本 X 第 /维度 的 特征 值 ,PCzw 1C,) 能 够 通过 训练 数据 集 信 算 出 。 


该 条 件 独立 性 的 假设 表示 用 于 分 类 的 特征 在 类 确定 的 条 件 下 都 是 独立 的 ,这 一 思想 使 
朴素 贝 叶 斯 法 变 得 简单 高 效 , 且 易于 实现 ,即使 有 时 会 牺牲 一 定 的 分 类 准确 率 。 因 此 在 朴素 
贝 叶 斯 法 中 ,学 习 过 程 意味 着 先 验 概率 P(C;) 和 条 件 概率 P(X|C;) 的 估计 过 程 ,概率 估计 方 
法 可 以 选择 极 大 似 然 估 计 法 或 贝 叶 斯 估计 法 。 


7.3.2 朴素 贝 叶 斯 分 类 过 程 


利用 朴素 贝 叶 斯 法 进行 分 类 时 ,假设 输入 变量 都 是 条 件 独 立 的 ,通过 在 训练 数据 上 学 习 
得 到 的 模型 计算 出 每 个 类 别 的 先 验 概率 和 条 件 概率 ,依照 模型 计算 后 验 概率 P(C,| X) ,将 
后 验 概率 最 大 的 类 作为 输入 变量 所 属 的 类 输出 。 经 过 上 述 分 析 , 朴 素 贝 叶 斯 分 类 器 可 表 
示 为 
y = arg mazP (C) [TP ^ | C2 (7-185 
朴素 贝 叶 斯 算法 伪 代 码 。 
算法 :朴素 贝 叶 斯 分 类 算法 
输入 : 
数据 划分 D 是 训练 元 组 和 对 应 类 标号 的 集合 ; 
输出 :数据 所 属 的 类 别 
方法 : 
计算 各 个 类 别 的 先 验 概率 Po 
计算 各 个 独立 特征 f 在 分 类 中 的 条 件 概率 pl, 
对 于 特定 的 特征 输入 x, 计 算 其 相应 属于 特定 分 类 的 条 件 概 率 p2。 
选择 条 件 概率 最 大 的 类 别 作为 该 输入 类 别 并 返回 。 


例 7.8 朴素 贝 叶 斯 分 类 算法 实例 。 
训练 数据 如 表 7-7 所 示 ,其 中 XO 和 X? 为 特征 , 取 值 分 别 来 自 特征 集合 A; 一 11,2,3) 


fll A, — IS.P.Q). C 为 类 标记 .C=={1, 一 1}, 即 有 1 和 一 1 两 类 。 根 据 训 练 数 据 学 习 一 个 朴 
素 贝 叶 斯 分 类 器 ,并 确定 zx 一 (2,S)7 的 类 标记 。 
表 7-7 训练 数据 












































D 计算 先 验 概率 : 
9 6 
P(C-1)-£. P(C=-1)= Š 
@ 计算 条 件 概率 : 
PX? =11C=1s 4, P(X =2|C= =, Pax" =3|C=1)= $ 
P(X® =S|C=1)= 4, P(X® =P|C=1)=4, P(X® =Q|C=1)= 3 
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AEDH RERE 

P a» 3 "== >=. e= 2 
(Ko =1|C=-D= $. P(X® -21c-—1)- 2, 
P(x"-3|Cc--1-1 P(X® -s|c--)- Ž, 
P(x® =P|C=—1)= , P(X? =Q|C=-1)= 1 

@ 对 于 给 定 的 z= 一 (2,S)7, 依 照 分 类 器 模型 计算 : 

P(C= 1): P(X® =2|C=1) P(X® =S|C=1)= $-$-l1-u 

E o3 d 





P(C——1) P(X? 22|C ——1)- P(X® 2 S| C ——1) 











6 
15/6 6 15 

因此 ,zx=(2,S)" 属 于 一 1 类 别 的 概率 最 大 ,依照 朴素 贝 叶 斯 中 的 概率 最 大 化 准则 ,该 分 
类 器 输出 的 类 标记 为 一 1。 


7.3.3 使 用 Weka 的 朴素 贝 叶 斯 分 类 器 进行 分 类 实例 


Weka 系统 上 提供 了 一 个 名 为 NaiveBayes 的 函数 ,实现 了 朴素 贝 叶 斯 算法 。 下 面 演示 
在 Weka 中 使 用 朴素 贝 叶 斯 算法 对 Iris 数据 集 进 行 分 类 的 操作 步骤 与 分 类 结果 。 具 体 步 又 
如 下 。 

(D 打开 Weka 软件 ,进入 软件 首页 ,如 图 7-26 所 示 。 





Q Weka GUI Chooser _ 口 X 


Program Visualization Tools Help 











图 7-26 Weka 图 形 用 户 界面 选择 器 


© 单 击 Explorer 按钮 ,进入 Weka 主页 面 ,如 图 7-27 所 示 。 

© 单 击 Open file... 按 钮 ,找到 Iris 数据 集 的 文件 并 打开 ,就 可 以 在 可 视 化 区 域 中 看 到 
特征 值 在 各 个 区 间 的 分 布 情况 ,不 同 的 类 别 标签 以 不 同 的 颜色 显示 ,如 图 7-28 所 示 。 

@ 单 击 Edit... 按 钮 ,弹出 一 个 名 称 为 Viewer 的 对 话 框 , 列 出 该 数据 集中 的 全 部 数据 。 
该 窗口 以 二 维 表 的 形式 展现 数据 ,用 户 可 以 查看 和 编辑 整个 数据 集 , 如 图 7-29 所 示 。 以 第 1 
行为 例 , 该 欧 尾 花花 莹 长 为 5. 1em EZREN 3. 5cm. EKA 1. 4cm, EIRE 0. 2cm, 类 
别 为 Iris-setosa。 

© 单 击 图 7-29 中 的 OK 按钮 ,返回 图 7-28 中 ,选择 顶部 的 Classify 选项 卡 , 单 击 其 中 
的 Choose 按钮 ,在 算法 树 形 结构 中 选择 NaiveBayes 算法 ,如 图 7-30 所 示 。 


第 7 章 Ax mö 





图 7-27 Weka 主页 面 





图 7-28 打开 Iris 数据 文件 


7168. 数据 分 析 与 数据 挖 报 








E 7-30  NaiveBayes 算法 选择 


@ 双击 参数 栏 可 以 进行 参数 的 设置 ,如 图 7-31 所 示 , 其 中 主要 参数 如 下 。debug( 调 
W): 是 否 将 额外 的 信息 输出 到 控制 台 ;displayModellnOldFormat( 旧 格式 显示 模式 ) : 是 否 
使 用 旧 格 式 的 模型 输出 , 当 分 类 值 较 多 时 ,使 用 旧 格 式 好 , 当 分 类 值 较 少 时 ,使 用 新 格式 好 ; 
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useKernelEstimator( 使 用 核 估算 器 ): 对 数值 特征 使 用 核 估算 器 。 


Class for a Naive Bayes classifier using estimator classes. 





图 7-31 朴素 贝 叶 斯 分 类 器 参数 列表 


O 设置 好 参数 后 , 单 击 OK 按钮 ,返回 图 7-30, 单 击 Start 按钮 启动 算法 ,在 Classifier 
output 窗口 中 查看 算法 运行 结果 ,如 图 7-32 Bron 


1.000 
0.960 
0.920 
0.960 


SO 0 0| a= Iris-setosa 
048 2| b= Iris-versicolor 


0 446 | c= Iris-virginica 





图 7-32 运行 结果 


分 析 结果 显示 了 分 类 结果 的 正确 情况 .错误 情况 .各 种 误差 值 .分 类 的 各 种 评价 指标 的 
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值 以 及 模糊 矩阵 等 数据 。 可 以 看 到 在 本 实例 中 ,被 分 类 的 实例 总 数 为 150, 分 类 准确 率 为 
0.96 ,召回 率 为 0.96, 下 值 为 0. 96。 


7.4 惰性 学 习 法 


惰性 学 习 法 和 其 他 学 习 算法 有 一 些 不 同 之 处 ,该 算法 并 不 急于 在 收 到 测试 对 象 之 前 构 
造 分 类 模型 。 当 接收 一 个 训练 集 时 ,惰性 学 习 法 只 是 简单 地 存储 或 稍微 处 理 每 个 训练 对 象 ， 
直到 测试 对 象 出 现 才 构造 分 类 模型 。 这 种 延迟 的 学 习 方法 有 一 个 重要 的 优点 , 即 它 们 不 在 
整个 对 象 空间 上 一 次 性 地 估计 目标 函数 ,而 是 针对 每 个 待 分 类 对 象 作出 不 同 的 估计 。 显 然 ， 
惰性 学 习 法 的 大 部 分 工作 存在 于 分 类 阶段 而 非 接收 训练 集 的 阶段 ,因此 分 类 时 其 计算 开销 
比较 大 。 惰 性 学 习 方法 主要 包括 K 近邻 (K-Nearest Neighbor, KNN) 分 类 法 、 局 部 加 权 回 
归 法 和 基于 案例 的 推理 。 其 中 ,前 两 者 均 假定 对 象 可 以 被 表示 为 欧式 空间 中 的 点 ,后 者 则 采 
用 更 复杂 的 符号 表示 对 象 。 本 节 主 要 介绍 K 近邻 分 类 法 。 


7.4.1 开 近 邻 算 法 描述 


K 近邻 算法 的 思想 是 从 训练 集中 找 出 & 个 最 接近 测试 对 象 的 训练 对 象 , 再 从 这 & 个 对 
象 中 确定 主导 类 别 , 将 此 类 别 值 赋 给 测试 对 象 。 假 设 训练 对 象 有 个 属性 ,每 个 对 象 由 n 维 
空间 的 一 个 点 表示 , 则 整个 训练 集 处 于 n 维 模式 空间 中 。 每 当 给 定 一 个 测试 对 象 c,K 近邻 
算法 将 计算 c 到 每 个 训练 对 象 的 距离 ,并 找到 最 接近 c É) k 个 训练 对 象 ,这 个 训练 对 象 就 
是 c typ". 然后 ,将 测试 对 象 c 指派 到 “最 近邻 ”中 对 象 数量 最 多 的 类 ,当然 不 限 
于 这 一 种 策略 ,如 可 以 从 “最 近邻 ”中 随机 选择 一 个 类 或 选择 最 大 类 。 当 k= 二 1 时 ,测试 对 象 
被 指派 到 与 它 最 近 的 训练 对 象 所 属 的 类 。 值 得 注意 的 是 ,该 算法 不 需要 花费 任何 时 间 进 行 
模型 构造 ,因此 与 决策 树 等 分 类 法 相 比 ,其 后 期 分 类 时 消耗 的 时 间 会 稍 长 。 

K 近邻 算法 在 进行 分 类 时 需要 考虑 以 下 4 个 关键 要 素 。 

CD 被 标记 的 训练 对 象 的 集合 , 即 训练 集 ,用 来 决定 一 个 测试 对 象 的 类 别 。 

© 距离 (或 相似 度 ) 指 标 , 用 来 计算 对 象 间 的 邻近 程度 。 一 般 情 况 下 ,采用 欧 几 里 得 距 
离 或 曼哈顿 距离 。 对 于 给 定 的 均 有 个 属性 的 对 象 + 和 y, 欧 几 里 得 距离 与 曼哈顿 距离 分 
别 利用 式 (7-19) 和 式 (7-20) 计 算 , 其 中 ,zi 一 ys 是 两 个 对 象 属性 k& 对 应 值 的 差 。 


d(r.y)— p Ga — »)* (7-19) 


d(r.y)— 21-7» (7-20) 

O 最 近邻 的 个 数 k. 的 值 可 以 通过 实验 确定 。 对 于 小 数据 集 , 取 k= 1 常常 会 得 到 比 
其 他 值 更 好 的 效果 ,而 在 样本 充足 的 情况 下 ,往往 会 选择 较 大 的 & 值 。 

D 从 & 个 “最 近邻 ?中 选择 目标 类 别 的 方法 。 

除了 上 述 提 到 的 选择 多 数 类 或 最 近 对 象 类 之 外 ,还 有 多 种 不 同 的 改进 方法 ,将 在 下 面 
讨论 。 

下 面 通 过 分 解 K 近邻 算法 对 iris. arff 数据 集 的 分 类 过 程 ,进一步 理解 K 近邻 算法 。 
iris. arff 数据 集 包含 了 150 条 关于 花 的 数据 ,这 些 数据 被 等 分 为 三 类 Iris 物种 : Setosa, 


Versicolor 和 Virginica ,每 洒 花 的 数据 描述 四 项 特征 : EE C EE AE a E EIR K E MAE 
WEE., dé 7-8 MK 7-9 分 别 是 iris. arff 训练 数据 与 测试 数据 的 实例 。 


表 7-8 Iris 物种 的 训练 数据 








ID EFKE AESF FERE ERKE 花瓣 宽度 类 别 

1 5.1 3.5 1.4 0.2 Setosa 

2 4.9 3 1.4 0.2 Setosa 

3 5 3.4 1.5 0.2 Setosa 

4 7 3.2 4.7 1.4 Versicolor 

5 6.9 3.1 4.9 1.5 Versicolor 

6 6.7 3.1 4.4 1.4 Versicolor 

7 6.3 2.8 5.1 1.5 Virginica 

8 6.9 3.1 5.4 2.1 Virginica 

9 7.2 3 5.8 1.6 Virginica 
表 7-9 Iris 物种 的 测试 数据 

ID HEK BE AE E SE BE Ab K E 花瓣 宽度 类 别 

* 6.4 3.1 5.5 1.8 

















目标 是 确定 表 7-9 中 测试 数据 的 物种 。 选 取 欧 几 里 得 距离 计算 该 测试 对 象 与 每 个 训练 
对 象 之 间 的 距离 (保留 两 位 小 数 )。 









































d(*,1) (6.4 一 5.1)? 十 (3.1 一 3.5)? 十 (5.5 一 1.4)? 十 (1.8 一 0.2)? = 4.61 
d( 5) (6.4 — 4.9)* + (8.1—3.02 + (5.5 —1.4)2 + (1.8 — 0. 2)? = 4.65 
d(*,3)— 4/(6.4—5.0)* 4-(3.1—3.4)* + (5.5 — 1.5)? + (0.8 —0. 2) = 4.54 
d(*,4)— 4(6.4—7.0) 3-(3.1—3.2)! + (5.5 — 4.7)! + 3.8—1. * = 1.08 
d(*,5)= 4(6.4—6.9)* + (3.1—3. D* T+ (5.5 —4.9)* + (1.8—1.5)* = 0. 84 
d(*,6)— 4(6.4—8.7)! -(3.1—3. D! (5.5 —4.4) T (0.8—1.* = 1.21 
d(*,7)— 4(6.4—6.3)* + (3.1—2.8)* + (5.5 —5.1)* 十 (1.8 一 1.5) = 0.59 
d(*,8)— 4(6.4—6.9)* + (3.1—3.* T+ (5.5 —5.4)* + (0.8—2. 1) = 0.59 

F(.1—3.0)* + (5.5 —5.80* + (.8—1. 6? = 0.88 














d(*,9)— 4(6.4— 7. 2)* 4 


由 于 数据 量 很 小 ,所 以 取 &A 王 1, 可 以 看 到 该 测试 对 象 与 第 7 个 或 第 8 个 已 标记 对 象 最 
接近 ,因此 属于 Virginica 物种 。 事 实 上 ,即便 把 & 取 值 扩大 到 5, 根 据 选择 对 象 占 多 数 的 类 
别 , 分 类 结果 依然 正确 ;而 当 &=6 时 ,最 近邻 ?中 Versicolor 和 Virginica 的 个 数 相等 , 现 有 
的 目标 类 判定 方法 失效 ,所 以 & 值 的 选取 非常 重要 。 

H T K 近邻 算法 的 思想 简单 ,所 以 很 容易 对 其 进行 改进 ,用 于 处 理 较 复杂 的 分 类 问题 ， 
如 多 模 分 类 问题 和 多 标签 分 类 问题 。 事 实 上 ,在 一 个 多 标签 分 类 任务 中 ,研究 人 员 发 现在 基 
于 微 阵列 表达 的 基因 功能 分 配 研究 中 ,K 近邻 算法 要 优 于 比 它 复杂 得 多 的 分 类 算法 。 


K 近邻 算法 伪 代 码 如 下 。 
算法 :近邻 分 类 算法 


172- 


数据 分 析 与 数据 挖 握 


输入 :数据 划分 D 是 训练 元 组 和 对 应 类 标号 的 集合 
输出 :数据 所 属 的 类 别 
方法 : 
JR A[1] ~A[k] 作 为 x 的 初始 近邻 ,计算 与 测试 样本 x 间 的 欧式 距离 d(x,A[i]), i=1,2,.…,k; 按 d(x,A 
[i]) 升 序 排序 ,计算 最 远 样本 与 x 间 的 距离 D =— -max {d(x, A[j])1j 21,2, ...,k); 
for(i=k+1;i<=n;i++) 
计算 a[i] 与 x 间 的 距离 du Alil); 
if(d(x,A[i])« D) then 
用 Ri 代替 最 远 样本 ; 
按照 d(x,A[IT]) 升 序 排序 ,计算 最 远 样本 与 x 间 的 距离 D -max (d(x, ABD) 13 =1,2, .jj7 
计算 前 k 个 样本 A[i],i=1,2,.…,k 所 属 类 别 的 概率 ,具有 最 大 概率 的 类 别 即 为 样本 x 的 类 ; 


7.4.2 K 近邻 算法 性 能 


K 近邻 算法 的 性 能 会 受到 一 些 关 键 因 素 的 影响 。 首 先是 值 的 选择 。 如 果 值 选择 得 
过 小 , 则 结果 会 对 噪声 点 的 影响 特别 敏感 ;反之 ,& 值 选择 得 过 大 , 则 近邻 中 就 可 能 包含 太 多 
种 类 别 的 点 。 可 以 通过 实验 确定 最 佳 & 值 。 从 k=1 开始 ,利用 测试 集 估计 分 类 器 的 错误 
Ae 值 每 增加 1, 允许 增加 一 个 近邻 并 重复 估计 错误 率 , 由 此 可 以 选取 产生 最 小 错误 率 的 
值 。 一 般 情况 下 ,样本 数 越 充足 , 即 训 练 对 象 越 多 ,k 值 越 大 。 随 着 训练 对 象 数 量 趋向 无 穷 
FH &— 1. K 近邻 分 类 器 的 错误 率 最 多 不 会 超过 贝 叶 斯 错误 率 的 2 倍 ( 后 者 是 理论 最 小 错 
VO ;如 果 上 同时 也 趋向 无 穷 ,K 近邻 分 类 器 的 错误 率 会 渐 近 收敛 到 贝 叶 斯 错误 率 。 因 此 ， 
在 样本 非常 充足 的 情况 下 ,选择 较 大 的 值 能 提高 K 近邻 分 类 器 的 抗 噪 能 力 。 

其 次 ,目标 类 别 的 选择 也 非常 重要 。 最 简单 的 做 法 是 前 文 所 述 的 投票 方式 。 但 是 ,如 果 
不 同 的 近邻 对 象 与 测试 对 象 之 间 的 距离 差异 很 大 ,那么 实际 上 距离 更 近 的 对 象 的 类 别 在 目 
标 类 别 选 择 上 的 作用 更 大 。 所 以 ,一 个 稍 复杂 的 方法 是 对 每 个 投票 依据 距离 进行 加 权 ,加权 
的 方法 种 类 很 多 ,如 经 常用 距离 平方 的 倒数 作为 权重 因子 。 实 际 上 ,投票 加 权 法 使 值 的 选 
择 敏 感度 相对 下 降 ,这 是 个 附加 的 好 处 。 

最 后 ,距离 指标 的 选择 也 是 影响 K 近邻 算法 性 能 的 一 个 重要 因素 。 原 则 上 ,各 种 测量 
方法 都 可 以 计算 两 点 之 间 的 距离 ,但 从 最 近邻 算法 的 目的 出 发 ,最 佳 测 距 方法 应 该 满足 如 下 
性 质 : 对 象 之 间距 离 越 小 ,它们 同属 于 一 个 类 别 的 可 能 性 越 大 。 如 在 文本 分 类 的 应 用 环境 
下 ,余弦 距离 就 比 欧 几 里 得 距离 更 适合 作为 KK 近邻 算法 的 测 距 方法 。 另 外 ,一 些 距离 测量 
方法 会 受到 数据 维 数 的 影响 ,如 欧 几 里 得 距离 在 属性 数量 增加 时 判别 能 力 会 减弱 ,因此 在 测 
距 之 前 ,有 时 需要 对 属性 的 值 进行 规范 化 处 理 , 以 防止 距离 测量 结果 被 单个 有 和 较 大 初始 值 域 
的 属性 所 主导 。 例 如 ,在 一 个 数据 集中 ,人 的 身高 数据 区 间 是 1. 5 一 1. 8m, 体 重 区 间 是 45 一 
90kg, 收 入 区 间 是 1—100 万 元 。 如 果 没 有 规范 属性 值 ,那么 收入 会 主导 距离 计算 并 影响 最 
终 的 分 类 结果 。 规 范 方法 是 把 数值 属性 A 的 值 v 变换 为 [0,1] 区 间 中 的 v', 计 算 方法 如 式 
(7-21) 所 示 , 其 中 ,mina 和 maxa 分 别 是 属性 A 的 最 小 值 和 最 大 值 。 

v 7 max minr EAD) 

以 上 讨论 均 假 定 对 象 的 属性 都 是 数值 型 的 。 对 于 非 数值 型 (如 标 称 属性 ) ,一 种 简单 的 
方法 是 比较 两 个 对 象 对 应 属性 的 值 : 如 果 相 同 , 则 二 者 之 差 取 0; 如 果 不 同 , 则 二 者 之 差 取 
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1。 更 复杂 一 些 的 ,可 以 把 属性 值 不 同时 的 差 值 精细 化 ,如 对 黑色 和 白色 赋予 比 蓝 色 和 和 白色 
更 大 的 差 值 。 如 果 属 性 A 在 某 个 对 象 上 有 缺失 值 ,那么 通常 取 最 大 的 可 能 差 。 假 设 每 个 属 
性 值 都 已 经 映射 到 [0,1] 区 间 , 如 果 两 个 对 象 的 属性 A 值 都 缺失 , 则 差 值 取 1; 如 果 只 有 一 个 
缺失 值 , 而 另 一 个 存在 并 且 已 经 规范 化 ( 记 为 v , 则 差 值 取 |1 一 vw | 8 |o—v' | 中 的 最 大 者 。 
对 于 标 称 属性 ,不 管 属性 A 的 值 缺失 一 个 还 是 两 个 ,对 应 差 值 均 取 1 。 


7.4.3 使 用 Weka 进行 K 近邻 分 类 实例 


Weka 系统 提供 了 一 个 名 为 IBk 的 函数 ,实现 了 近邻 算法 , 它 允 许 用 户 选择 多 种 加 权 
距离 方法 ,并 且 提 供 了 一 个 选项 以 便 借 助 交叉 验证 自动 确定 & 值 。 下 面 演示 在 Weka 中 K 
近邻 算法 对 iris. arff 数据 集 进 行 分 类 的 操作 步骤 与 分 类 结果 。 具 体 步骤 如 下 。 

CD 打开 Weka 软件 ,进入 软件 首页 ,如 图 7-33 Bron 。 





图 7-33 Weka 图 形 用 户 界面 选择 器 


© 单 击 Explorer 按钮 ,进入 Weka 主页 面 , 如 图 7-34 所 示 o 





图 7-34 Weka 主页 面 


mA gaDt R 


© 单 击 Open file.… 按 钮 ,找到 iris. arff 数据 集 的 文件 并 打开 ,可 以 在 可 视 化 区 域 看 到 
特征 值 在 各 个 区 间 的 分 布 情况 ,不 同 的 类 别 标签 以 不 同 的 颜色 显示 ,如 图 7-35 所 示 。 








图 7-35 打开 Iris 数据 文件 


@ 单 击 Edit... 按 钮 ,弹出 一 个 名 称 为 Viewer 的 对 话 框 , 列 出 该 数据 集中 的 全 部 数据 。 
该 窗口 以 二 维 表 的 形式 展现 数据 ,用 户 可 以 查看 和 编辑 整个 数据 集 , 如 图 7-36 所 示 。 以 第 1 
4128 DI 1785 FE TE TE IK ON. 5. 1em ERRA 3. 5cm RKA 1. 4cm, EIRA 0. 2cm, 类 
别 为 Iris-setosa 。 





图 7-36 数据 集 编辑 器 对 话 框 
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© 在 图 7-34 中 ,选择 顶部 的 Classify 选项 卡 , 单 击 Choose 按钮 ,在 算法 树 形 结构 中 选 
FE IBk 算法 ,如 图 7-37 所 示 o 








图 7-37 IBk 算法 选择 


© 单 击 参数 信息 框 , 出 现 如 图 7-38 所 示 的 参数 设置 对 话 框 , 其 中 主要 参数 如 下 。 
KNN: 使 用 的 近邻 数量 ; distanceWeighting (距离 加 权 ): 使 用 的 距离 加 权 方 法 ; 
meanSquared( 均 方 误差 ): 是 否 使 用 均 方 误差 作为 平均 绝对 误差 。 
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© 单 击 OK 按钮 ,返回 如 图 7-37 所 示 的 界面 , 单 击 Start 按钮 ,启动 算法 ,在 Classifier 
output 窗口 中 查看 算法 运行 结果 ,如 图 7-39 所 示 。 


Correctly Classified Instances 143 95.3333 + 
Incorrectly Classified Instances 7 4.6667 & 
0.53 
0.0399 
0.1747 
8.9763 + 
37.0695 + 


0.953 





图 7-39 分 类 结果 


分 析 结 果 显 示 了 分 类 结果 的 正确 情况 .错误 情况 、 各 种 误差 值 .分 类 的 各 种 评价 指标 的 
值 以 及 模糊 矩阵 等 数据 。 可 以 看 到 在 本 实例 中 ,被 分 类 的 实例 总 数 为 150, 分 类 准确 率 为 
0.953, [Fl 3E Jg 0. 953. F [B y 0.953, 


7.5 ”逻辑 回归 


逻辑 回归 (Logistic Regression,LR) 虽 然 带 有 回归 字样 ,但 是 逻辑 回归 属于 分 类 算法 。 
逻辑 回归 可 以 进行 多 分 类 操作 ,但 由 逻辑 回归 算法 本 身 的 性 质 决定 了 其 更 常用 于 二 分 类 。 
本 节 主 要 介绍 逻辑 回归 的 基本 概念 以 及 算法 过 程 , 并 列举 一 个 实例 对 逻辑 回归 的 二 分 类 过 
程 进 行 展示 。 


7.5.1 逻辑 回归 基本 概念 


首先 给 出 逻辑 回归 的 决策 公式 ,如 式 (7-22) 所 示 。 


Y(z)= (7-22) 


其 中 ,Y 为 决策 值 ,z 为 特征 值 ,e 为 自然 对 数 ,w 为 特征 值 的 权 值 ,2 为 偏 置 偏执 。z。 
并 为 两 者 的 内 积 ,Y(z) 的 图 形 如 图 7-40 所 示 。 

该 函数 是 一 条 S 形 曲线 ,并 且 曲 线 在 中 心 点 附近 的 增长 速度 较 快 ,在 两 端的 增长 速度 较 
慢 。w 值 越 大 ,曲线 中 心 附近 的 增长 速度 越 快 。 





Ry 


0 





图 7-40 逻辑 回归 决策 函数 


从 图 7-40 中 可 知 ,Y 的 值 域 为 (0,1) ,那么 就 可 以 将 决策 函数 值 大 于 等 于 0. 5 的 具有 对 
应 工 属性 的 对 象 归 为 正 样本 ,决策 函数 值 小 于 0.5 的 具有 对 应 > 属性 的 对 象 归 为 负 样 本 。 
这 样 就 可 以 对 样本 数据 进行 二 分 类 。 


7.5.2 二 项 逻辑 回归 过 程 


二 项 逻辑 回归 模型 是 一 种 简单 .常见 的 二 分 类 模型 ,通过 输入 未 知 类 别 对 象 的 属性 特征 
序列 得 到 对 象 所 处 的 类 别 。 由 于 Y(z) 蚌 一 个 概率 分 布 函数 ,因此 对 于 二 分 类 而 言 , 离 中 心 
点 的 距离 越 远 ,其 属于 某 一 类 的 可 能 性 就 越 大 。 

对 于 常见 的 二 分 类 问题 ,例如 投 硬币 问题 就 是 典型 的 二 分 类 问题 ,逻辑 回归 通过 一 个 区 
间 分 布 进行 类 别 划 分 , 即 如 果 Y 值 大 于 等 于 0.5, 则 属于 正 样本 ,如 果 Y 值 小 于 0.5, 则 属于 
负 样 本 ,这 样 就 可 以 得 到 仙 辑 回归 模型 ,模型 的 函数 如 式 (7-22) 所 示 , 判 别 函 数 如 式 (7-23) 
所 示 。 

1, YG)z0.5 
om » YG) «0.5 aes 

在 模型 参数 w 与 b 没有 确定 的 情况 下 ,模型 是 无 法 工作 的 ,因此 接 下 来 就 是 在 实际 应 
用 中 最 重要 的 模型 参数 w 和 2 的 估计 。 有 时 为 了 方便 ,可 以 对 权 值 向 量 zw 与 特征 向 量 z 加 
以 扩充 , 令 0— Gu? cw? ,zw ) ,7z 一 (zz2 Le La 1) T ,这样 就 可 以 将 模型 简化 ,如 
式 (7-24) 所 示 。 


Y, (z)= (7-24) 
然后 根据 训练 数据 用 梯度 下 降 法 估计 参数 90, 定义 代价 函数 如 式 (7-25) 所 示 。 
一 logYyv(z)， y=1 
cost(Y,(z),y) = (7-25) 
Boer y=0 


给 定 y 值 为 1 时 ,代价 函数 曲线 的 横 坐 标 为 决策 函数 Yes(z) 的 值 , 纵 坐标 为 代价 。 可 以 
看 出 ,决策 函数 Ye(z) 的 值 越 接 近 1, 则 代价 越 小 ,反之 越 大 。 当 决策 函数 Ye (z) 的 值 为 1 
时 ,代价 为 0。 类 似 的 , 当 给 定 y 值 为 0 时 有 同样 的 性 质 。 

如 果 将 所 有 m 个 样本 的 代价 累加 并 平均 ,就 可 以 得 到 最 终 的 代价 函数 ,如 式 (7-26) 
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所 示 。 


J® = L S cost, G0 sy) (7-26) 
i=1 
由 于 y 的 取 值 为 0 或 1, 结 合式 (7-25) 及 (7-26) 得 到 式 (7-27) 。 


J(0) 一 一 ix (y'log(Y,(z')) + (1 — y logd — Yo Gr 00) (7-27) 
i=1 
这 样 就 得 到 了 样本 的 总 代价 函数 ,代价 越 小 表明 所 得 到 的 模型 更 符合 真实 模型 , 当 
J(90) 最 小 时 ,就 得 到 了 所 求 参 数 0。 


采用 常用 的 梯度 下 降 法 确定 9, 即 设置 一 个 学 习 率 a,j 从 1 到 ”更 新 0 ,如 式 (7-28) 
所 示 。 


ə 
b: = 6 7 agg] (人 (7-28) 


Job] (0): J(0) 关 于 0 的 导数 ,如 式 (7-29) 所 示 。 


EAK = TÈ 0 07 Y (7-29) 
最 后 就 可 以 得 到 9 最 终 的 迭代 公式 ,如 式 (7-30) 所 示 。 


0: -6-23 0 G)- y) (7-30) 

重复 更 新 步骤 ,直到 代价 函数 的 值 收敛 为 止 。 对 于 学 习 率 a 的 设 定 , 如 果 过 小 , 则 可 能 
会 迭代 过 多 的 次 数 而 导致 整个 过 程 变 得 很 慢 ; 如 果 过 大 , 则 可 能 导致 错过 最 佳 收敛 点 。 所 以 
在 计算 过 程 中 要 选择 合适 的 学 习 率 。 

这 样 就 给 出 了 求 二 分 类 的 逻辑 回归 算法 ,其 输入 输出 参数 如 下 。 

输入 : 训练 数据 集 T= { (21y) (zyy)， (z. y.) Psr € X=R"',y € Y= 
{ 一 1, 十 1} 一 1,2,…73 学 习 率 a, 

输出 : EMER Yo (c) =r 


其 步骤 如 下 。 

CD 选取 初 值 9。 

@ 选择 训练 集 T. 

O 若 J(0) 不 收敛, 遍历 j 一 1 ton: 

= 0, — a gl (D 

@ 转 至 步骤 @ ,直至 J(0) 收 敛 。 

需要 注意 的 是 ,在 步骤 四 中 使 用 的 梯度 下 降 法 虽然 可 行 有 效 , 但 是 这 种 方法 的 收敛 速度 
比较 慢 , 因 此 现在 也 提出 了 不 少 高 阶梯 度 下 降 算 法 ,包括 BFGS、L-BFGS 等 。 这 些 算法 的 优 
点 是 不 需要 挑选 学 习 率 ,缺点 是 比较 复杂 ,难以 实现 。 另 外 :也 可 以 使 用 极 大 似 然 估计 法 估 
计 模 型 参数 ,从 而 得 到 逻辑 回归 模型 。 

逻辑 分 类 算法 伪 代 码 。 


算法 :Logistic 分 类 算法 





输入 :数据 划分 D 是 训练 元 组 和 对 应 类 标号 的 集合 
输出 :具有 分 类 能 力 的 逻辑 回归 模型 

方法 : 

初始 化 拟 合 的 参数 ; 

根据 训练 数据 求 出 似 然 函 数 ; 

使 用 梯度 下 降 算 法 最 小 化 目标 函数 ; 
求解 出 最 优 的 参数 ; 

输出 模型 ; 


7.5.3 ”使 用 逻辑 回归 分 类 算法 的 实例 
以 下 为 研究 一 个 学 生 优 秀 还 是 差 等 的 问题 ,已 知 训练 数据 的 学 生 的 基本 特征 信息 如 
表 7-10 所 示 。 


表 7-10 已 知 学 生 数据 (训练 数据 ) 
平均 每 天 学 习 时 长 | 平均 每 天 问 问 题 数 





学 生 chy (个 ) 平均 考试 分 数 优秀 或 差 等 
学 生 a 10 3 90 优秀 
学 生 b 9 1 70 优秀 
学 生 c 4 0 55 x 
学 生 d 6 1 80 优秀 





需要 分 类 的 学 生 数 据 如 表 7-11 所 示 。 
表 7-11 需 分 类 的 学 生 数 据 





平均 每 天 学 习 平均 每 天 问 问 
学 生 时 长 (h) 题 数 (个 ) 平均 考试 分 数 优秀 或 差 等 
ME 8 2 85 
学 生 f 3 1 60 


O 整理 已 知 数据 ,转化 成 数学 模型 。 
=l 10, z2= 3, z4= 90, y 1 
xi 9, zi 1, z 70, y 1 
zi 4, zi—0, axi 55. 
aj 6, zi 1s x 80. y! 1 

@ 将 分 数 除 以 10 进行 归 一 化 处 理 。 

© 选取 初始 0 值 为 (0.5,0.5,0.5:0.5), 取 值 a=0. 3,34 Ei J(0) 的 收敛 值 为 0. 1 。 

CD. 由 于 代价 函数 值 大 于 0.1, 则 0 值 需要 迭代 ,通过 计算 可 求 得 0 的 第 一 次 迭代 结果 。 


























0, =— 0.096 
0, = 0. 50008 
0, =— 0.32 

0, = 0. 350858 


© 计算 迭代 后 的 J(2) 的 值 , 检 查 J(9) 是 否 小 于 收敛 ,否则 继续 进行 迭代 。 
© 经 过 多 次 迭代 后 就 可 以 得 到 代价 函数 值 控制 在 0. 1 以 内 的 逻辑 函数 模型 ,那么 就 能 
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很 容易 地 得 到 需要 分 类 的 学 生 的 结果 ,如 表 7-12 所 示 。 
表 7-12 未 知 标签 学 生 的 结果 





平均 每 天 学 习 平均 每 天 问 
学 生 时 长 (D) 问题 数 (个 ) 平均 考试 分 数 优秀 或 差 等 
FE e 8 2 85 1 
Ff 3 1 60 0 


7.5.4 使 用 Weka 进行 逻辑 回归 分 类 实例 
(D 打开 Weka 软件 ,进入 软件 首页 ,如 图 7-41 所 示 。 





图 7-41 Weka 图 形 用 户 界面 选择 器 


@ 单 击 Explorer 按钮 ,进入 Weka 主页 面 ,如 图 7-42 所 示 。 





图 7-42 Weka RM 


© 单 击 Open file... 按 钮 ,选择 需要 进行 逻辑 回归 的 文件 ,这 里 选择 weather. numeric. 
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ar 任 文件 并 打开 ,界面 如 图 7-43 所 示 。Current relation 栏 描述 了 目前 的 关系 , 其 中 ， 
Relation: weather 说 明 此 文件 是 有 关 天 气 的 描述 ,Instances:14 说 明 此 文件 中 有 14 个 实例 ， 
Attributes:5 表明 有 5 个 属性 ,Sum of weights:14 表明 权重 和 为 14。Attributes 栏 显示 了 
文件 中 的 各 个 属性 ,分 别 为 outlook CK AO , temperature Cif E) , humidity (i J£) , windy ( 
RARO 、play( 是 否 适合 旅游 ) ,其 中 ,outlook 取 值 为 sunny rainy 3È overcast, windy 取 值 为 
FALSE 或 TRUE,play 取 值 为 no 或 yes。 








图 7-43 选择 并 打开 weather. numeric. arff 文件 


(D 单 击 Edit 按钮 ,弹出 一 个 名 称 为 Viewer 的 对 话 框 , 列 出 该 数据 集中 的 全 部 数据 。 
该 窗口 以 二 维 表 的 形式 展现 数据 ,用 户 可 以 查看 和 编辑 整个 数据 集 ,如 图 7-44 所 示 。 以 第 1 





图 7-44 ”数据 集 编辑 器 对 话 框 
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行为 例 ,编号 为 1 的 天 气 的 outlook 取 值 为 sunny,temperature 取 值 为 85. 0,humidity 取 值 
为 85.0,windy 取 值 为 FALSE ,play 取 值 为 no. 

在 图 7-44 中 , 单 击 Add instance 按钮 即 可 添加 实例 , 单 击 Undo 按钮 , 即 可 撤销 操作 ， 
保存 可 单 击 OK 按钮 ,取消 可 单 击 Cancel 按钮 。 

© 单 击 OK 按钮 ,返回 图 7-43 所 示 的 界面 , 单 击 Classify 选项 卡 , 在 Classifier 栏 中 , 单 
击 Choose 按钮 ,选择 functions 下 的 Logistic, 即 可 使 用 逻辑 回归 函数 对 文件 进行 处 理 , 如 
图 7-45 所 示 。 





图 7-45 选择 逻辑 函数 


© 单 击 参数 框 可 以 弹出 参数 列表 ,如 图 7-46 所 示 , 其 中 主要 参数 的 解释 如 下 。maxlIts 


Class for building and using a multinomial logistic regression 
model with a ridge estimator. 





Hi7-46 逻辑 算法 参数 列表 
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(最 大 迭代 次 数 ): 要 执行 的 最 大 迭代 次 数 ; ridge OR): 设置 对 数 似 然 的 岭 值 ; 
useConjugateGradientDescent H4 Ef BE F KE): 使 用 共 思 梯 度 下 降 进 行 更 新 。 
© 在 图 7-45 中 , 单 击 Start 按钮 , 即 可 进行 逻辑 回归 ,其 计算 结果 如 图 7-47 所 示 。 


utes | visuatze | 


ogistic -R 1 0E-8 -M -1 -num-decimal-places 4 





Correctly Classified Instances e 57.1429 + 
Incorrectly Classified Instances 6 42.8571 + 
Kappa statistic 0.0667 
0.4548 
0.6576 
95.5132 + 
133.2951 + 
m 


一 Detailed Accuracy By Class === 
TP Rate FP Rate Precision Recall 
0.667 0.600 0.667 0.667 
0.400 0.333 — 0.400 0.400 
Weighted Avg. — 0.571 — 0.505 — 0.571 0.571 
一 Confusion Matrix === 


ab <-- classified as 








图 7-47 逻辑 回归 分 类 结果 


图 7-47 描述 了 逻辑 回归 的 结果 。 其 中 ,TP Rate 表示 识别 率 , 即 对 某 一 分 类 的 实例 有 
多 少 概率 把 它 识别 出 来 ;FP Rate 表示 误 判 率 , 即 将 其 他 分 类 的 实例 识别 成 自己 的 概率 ;F- 
Measure 表示 下 值 , 它 是 精准 度 和 召回 率 的 综合 ,在 现实 中 ,精准 率 和 召回 率 往往 不 可 兼 得 ， 
所 以 引入 了 下 值 ,F 值 越 大 ,说 明 精 准 率 和 召回 率 越 高 。 


7.6 支持 向 量 机 


分 类 作为 数据 挖掘 领域 中 一 项 非常 重要 的 任务 , 它 的 最 终 目 的 是 通过 训练 学 习 得 到 一 
个 分 类 模型 或 者 分 类 器 。 而 支持 向 量 机 本 身 便 是 一 种 广泛 应 用 于 统计 分 类 以 及 回归 分 析 的 
监督 式 学习 方 法 。 支 持 向 量 机 (SVMD) 是 一 种 在 20 世纪 90 年 代 中 期 发 展 起 来 的 基于 统计 
学 习 理 论 的 机 器 学 习 方 法 , 它 是 一 种 二 分 类 模型 。 

支持 向 量 机 可 分 为 三 种 模型 : 线性 可 分 支持 向 量 机 、 线 性 支持 向 量 机 以 及 非 线性 支持 
向 量 机 。 如 果 训 练 数据 线性 可 分 , 则 通过 硬 间隔 最 大 化 学 习 一 个 线性 分 类 器 即 线性 可 分 支 
持 向 量 机 ,也 可 称 之 为 硬 间 隔 支持 向 量 机 ;如 果 训 练 数据 是 近似 线性 可 分 的 , 则 通过 软 间隔 
最 大 化 学 习 得 到 一 个 线性 分 类 器 即 线性 支持 向 量 机 ,也 可 称 之 为 软 间隔 支持 向 量 机 ;如 果 训 
练 数据 不 可 分 , 则 可 以 通过 使 用 核 技巧 及 软 间隔 最 大 化 得 到 非 线性 支持 向 量 机 。 
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7.6.1 线性 可 分 支持 向 量 机 算法 
假设 给 定 线性 可 分 训练 数据 集 


T = {zy1) 3 (zzyvyz)，…， (TN syN)) 

HP, ER ,yiE{ 十 1, 一 1} ,i 一 1,2,…,N,zi 为 第 i 个 特征 向 量 ,y; 为 第 i 个 特征 向 量 >, 
的 类 标记 ,十 1 表示 为 正 类 ,一 1 表示 为 负 类 。 

学 习 的 目标 是 找到 一 个 超 平面 ,能 正确 地 将 实例 分 到 不 同 的 类 。 假 设 超 平 面 对 应 于 方 
程 w。z 十 0 一 0, 它 由 法 向 量 w 以 及 截 距 6 确定 。 超 平面 将 特征 空间 分 为 正 类 和 负 类 两 个 
部 分 ,法 向 量 指向 的 一 边 是 正 类 , 另 一 边 是 负 类 。 

如 果 训 练 数据 集 是 线性 可 分 的 ,一 般 能 够 找到 无 穷 多 个 超 平面 可 以 正确 地 区 分 两 类 数 
据 , 如 图 7-48 所 示 。 











图 7-48 二 分 类 问题 


图 7-48 中 的 分 离 超 平面 是 有 无 穷 多 个 的 ,可 以 在 图 7-46 中 的 直线 的 上 方 或 者 下 方面 
出 无 数 条 直线 ,以 此 区 分 正 类 和 负 类 ,线性 可 分 支持 向 量 机 利用 间隔 最 大 化 求 分 离 超 平面 ， 
这 时 的 解 是 唯一 的 。 


1. 线性 可 分 支持 向 量 机 


给 定 线性 可 分 数据 集 ,通过 间隔 最 大 化 或 等 价 的 方法 求解 相应 的 凸 二 次 规划 问题 ,从 而 
得 到 分 离 超 平面 ,如 图 7-48 所 示 。 超 平面 的 公式 如 式 (7-31) 所 示 。 
wer+b=0 (7-31) 
相应 的 分 类 决策 函数 如 下 。 
f(x) = signGw * x +b) (7-32) 

在 介绍 求解 间隔 最 大 化 问题 前 ,首先 介绍 函数 间隔 (Functional Margin) 和 几何 间隔 
(Geometric Margin) 。 

一 般 来 说 ,点 距离 超 平面 的 远近 可 以 表示 分 类 预测 的 确信 程度 ,如 图 7-49 中 超 平面 的 
右上 侧 ,距离 超 平面 远 的 点 是 正 类 的 确信 度 要 比 距 离 超 平面 近 的 点 是 正 类 的 确信 度 要 高 。 
在 确定 超 平面 w。z 十 6 一 0 的 情况 下 ,|w* ato | 能够 在 一 定 程度 上 表示 点 到 超 平面 的 距 
离 。 并 且 , 如 果 分 类 正确 , 则 y(w。，*，z 十 5) 的 符号 为 正 ,如 果 分 类 错误 , 则 符号 为 负 。 所 以 可 
以 用 y(w。，z 十 5) 表示 分 类 的 正确 性 和 确信 和 度 。 











图 7-49 线性 可 分 支持 向 量 机 的 超 平面 


2. 函数 间隔 


对 于 给 定 的 训练 数据 集 T 以 及 超 平 面 (w,6) ,定义 超 平面 (w,6) 关 于 样本 点 (zx;,y,) 的 
函数 间隔 如 式 (7-33) 所 示 。 
Y, = yi(we x; + b) (7-33) 
定义 超 平 面 (w,6) 关 于 训练 数据 集 T 的 函数 间隔 为 超 平面 (w,6) 关 于 醋 中 所 有 样本 点 
(zisyi) 的 最 小 函数 间隔 ,如 式 (7-34) 所 示 。 
7= min y; (7-34) 
在 选择 超 平面 时 ,只 有 函数 间隔 是 不 够 的 。 因 为 如 果 等 比例 地 改变 w 与 5, 如 改 为 2w 
与 20, 那 么 在 超 平面 ww。>z 十 0 一 0 并 没有 改变 的 情况 下 ,函数 间隔 变 为 了 原来 的 2 倍 。 为 了 
解决 这 个 问题 ,可 以 对 法 向 量 vo 附加 一 些 约束 条 件 ,使 其 规范 化 ,这 样 就 引出 了 真正 定义 点 
到 超 平面 的 距离 一 一 几何 间隔 ,如 图 7-50 所 示 。 











图 7-50 几何 距离 


图 7-50 给 出 了 超 平面 (w,6b) 的 法 向 量 w, 以 及 某 实例 点 =, 到 超 平面 的 距离 7;。 
其 中 


jou sip B (7-35) 
Tw n Tw T 


xXC-35) m, || w || 是 w B dI s 


185 


EE 23 5 3k 3542 48. 

这 里 的 yY 是 带 有 符号 的 , 当 实 例 点 在 超 平面 正 的 一 侧 时 ,其 符号 为 正 , 当 实例 点 在 超 平 
面 负 的 一 侧 时 ,其 符号 为 负 。 

3. 几何 间隔 


对 于 给 定 的 训练 数据 集 T 和 超 平面 (zw,0) ,定义 超 平面 关于 样本 点 (ziyy) 的 几何 间隔 
如 式 (7-36) 所 示 。 








w | b à 
n= a(r 2 Ter) lbid 
定义 超 平面 (w,5) 关 于 训练 数据 集 工 的 几何 间隔 为 超 平面 (ww,5) 关 于 工 中 所 有 样本 点 
《zisyi) 的 最 小 几何 间隔 ,如 式 (7-37) 所 示 。 
y= „min 7; (7-37) 
函数 间隔 yX (wo * H0) — y X f GO Sc Ee | f(x) | ,只 是 人 为 定义 的 一 个 量 , 而 几 
mam LEE Lp je tcn E 8 Bl oig 


按照 前 面 的 分 析 , 对 一 个 数据 点 进行 分 类 , 当 它 与 超 平面 的 距离 越 大 时 ,分 类 的 确信 度 
越 大 。 对 于 一 个 包含 个 点 的 数据 集 工 ,为 了 使 分 类 的 确信 度 高 ,就 需要 所 选择 的 超 平面 
(w,b) 能 够 最 大 化 关于 的 几何 间隔 。 支 持 向 量 机 学 习 的 基本 思想 就 是 求 出 能 够 正确 划分 
训练 数据 集 并 且 使 几何 间隔 最 大 化 的 超 平面 。 





这 样 目 标 函数 可 以 定义 为 
maxy (7-38) 
w b 
s ° z; + >y, i=1,2,-, -3 
S. t »( Io Ti X Tw Ti ) » i 1.2 N (7-39) 


约束 条 件 表示 y EEF Go 00 XT VILA fus SE T H JU fe] [8] Br « BI J ECT ü Gae 00 K 
于 下 中 所 有 样本 点 (ziyy) 的 最 小 几何 间隔 , 即 最 大 化 这 个 几何 间隔 。 


注意 到 y= 二 之 一 ,那么 原 目 标 函 数 就 可 以 转换 为 


Tw 





max Tw 2 (7-40) 
s.t xa Ry. i=1,2,--,N (7-41) 
因为 等 比例 的 改变 w 与 4 的 值 ,函数 间隔 也 会 随 之 改变 ,所 以 这 里 设 y= 1 并 不 影响 最 
优化 问题 的 求解 ,问题 也 随 之 变 为 了 求解 最 大 化 站 4 T。 由 于 求 T 二 T 的 最 大 值 相当 于 求 
+ l| so |? 的 最 小 值 , 于 是 就 得 到 线性 可 分 支持 向 量 机 的 最 优化 问题 。 
min — Iw I? (1-42) 
St. ylw. z, tb) Z1, i= 1,2, =N (7-43) 
这 是 一 个 凸 二 次 规划 问题 。 
接 下 来 要 做 的 就 是 求解 线性 可 分 支持 向 量 机 的 最 优化 问题 。 对 于 一 个 凸 二 次 规划 问 
题 ,可 以 用 很 多 现成 的 二 次 规划 算法 的 优化 包 进 行 求解 ,总 结 来 说 就 是 在 一 定 的 约束 条 件 下 


目标 最 优 、 损 失 最 小 。 把 式 (7-42) 与 式 (7-43) 看 作 原 问题 ,除了 常规 方法 外 ,还 可 以 通过 求 
解 原 问题 的 对 偶 问题 得 到 最 优 解 ,这 就 是 线性 可 分 支持 向 量 机 的 对 偶 算 法 。 这 样 做 的 优点 ， 
一 是 对 偶 问 题 往往 更 容易 求解 ;二 是 可 以 自然 地 引入 核 函数 ,进而 推广 到 非 线 性 分 类 问题 。 
通常 ,可 以 通过 应 用 拉 格 朗 日 对 偶 性 将 原始 问题 转换 为 对 偶 问题 。 

通过 给 每 一 个 约束 条 件 加 上 一 个 拉 格 朗 日 乘 值 , 并 将 约束 条 件 融合 到 目标 函数 中 构建 
拉 格 朗 日 函数 ,如 式 (7-44) 所 示 ,a= Cai ,cs ,…,avw)7 是 拉 格 朗 日 乘 子 。 


N 
LGo.b.a) = I I| w l? — Daly: Gw * z; +b) — D (7-44) 


i=l 


对 于 广义 的 拉 格 朗 日 函数 的 极 小 、 极 大 问题 minmaxL (w,b,a) , 它 与 原 问题 是 等 价 的 ， 
即 有 相同 的 解 。 其 对 偶 极 大 、\ 极 小 问题 为 maxminL Go «b. a) ,对 该 对 偶 问 题 的 求解 ,需要 先 


SK LCw,b,a) X} w,b 的 极 小 ,再 求 对 a 的 极 大 。 
QD 固定 a 使 L(w,b,a) 关 于 w,b 最 小 化 ,分 别 对 ww,6b 求 偏 导 ,并 令 导 数 为 零 。 


2r =0 
Tb o 
© 可 以 得 到 结果 ,如 式 (7-45) 和 式 (7-46) 所 示 。 
w= S dd (7-45) 
OM 
May = 0 (7-46) 
@ 将 结果 带 人 LGosb sa) ,可 以 得 到 起 (7-47)。 
L(w,b,a) 一 一 FÈ Doss, + > (7-47) 
@ 对 a 求 极 大 , 即 关于 对 偶 问 题 的 最 优化 问题 ,如 式 (7-48) 所 示 。 
max— 132 Penare, ES > (7-48) 
st a0, i=1,2,--,N 


C) 对 于 原始 问题 ,存在 w" L0" 和 w "分别 是 原始 问题 和 对 偶 问题 的 最 优 解 。 这 样 就 可 
以 得 到 原始 问题 的 解 ,如 式 (7-49) 和 式 (7-50) 所 示 。 


w = Mab yai (7-49) 


N 
b' = yi — Da yi (z; * x) (7-50) 
i=1 


© w* 5j b" 只 依赖 于 对 应 a* 270 的 样本 点 (zi,yi) ,而 其 他 样本 点 则 对 两 者 没有 影响 。 
将 对 应 于 a* 270 的 样本 点 z, 称 为 支持 向 量 , 支 持 向 量 一 定 在 间隔 边界 上 ,如 图 7-51 中 的 实 
心 样本 点 。 
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图 7-51 支持 向 量 


7.6.2. 线性 可 分 支持 向 量 机 算法 过 程 
O 构造 并 求解 最 优化 问题 。 


© 求 得 最 优 解 a= (la ,az ,… san)" 
C 根据 第 中 步 的 结果 求解 。 


(D 选择 一 个 a; 二 0, 求 解 。 


N 
= Mat y, (=, * mj) 
C) 得 到 分 离 超 平面 。 
w'*rctb'-0 
@ 得 到 分 类 决策 函数 。 
N 
flx) = sign( X Ja; yila; * z) +b") 
至 此 ,就 得 到 了 线性 可 分 支持 向 量 机 的 学 习 算法 。 
例 7.9 使 用 线性 可 分 支持 向 量 机 进行 分 类 。 
假设 训练 数据 集 工 ,其 正 例 点 有 r= (3.327 r= (4.307 和 负 样 本 zs 一 (1,1)7, 求 线 
性 可 分 支持 向 量 机 。 
解 : 根据 训练 数据 集 ,可 以 很 容易 地 得 到 其 对 偶 问题 为 
max — 15) LT yiyjzizr; 十 > 


ici j=1 


一 一 iOS + 25a2 + 2a$ + 42a1a; — 12a1a, — 14a;a4) + Cai Haz + as) 


s.t. ea —a, = 0 
a; Z0, i=1,2,3 
KARE a =a ta 代入 上 式 可 得 


aisar) =— (4a? id Fjara le bay — 22 
20 20 € 3 F T 
求 六 一 0 5 Eo TRA ode (2.1) 处 取得 极 大 值 。 但 是 一 一 1 不 满足 


a 之 0, 所 以 最 值 应 该 在 边界 上 。 当 a 一 0 M CL 00.20 — Lo a c0 时 ,最 大 值 


[+o] 3. 所 以 0 会 在 [十 ,0 MAHEK en as =a Ha =t. 
这 样 ,支持 向 量 为 zi ,zxs。 根 据 式 (7-20) 与 式 (7-21) 可 得 zo" -(Pie 二 一 2, 可 
以 得 到 超 平面 。 
ic" lia" — = 0 
得 到 超 平面 之 后 ,就 可 以 求 出 分 类 决策 函数 了 。 


fG) sign( Lao + La b ) 


7.6.3 使 用 Weka 进行 支持 向 量 机 分 类 实例 
(D 打开 Weka 软件 ,进入 软件 首页 ,如 图 7-52 所 示 。 











Q Weka GUI Chooser = n x 


Program Visualization Tools Help 








图 7-52 Weka 图 形 用 户 界面 选择 器 


© 单 击 Explorer 按钮 ,进入 Weka 主页 面 ,如 图 7-53 所 示 。 

© 单 击 Open file... 按 钮 ,选择 需要 进行 SMO 分 类 的 文件 (SMO 是 Weka 中 对 支持 向 
量 机 算法 的 实现 )breast-cancer. arff 并 打开 ,如 图 7-54 所 示 。 

@ 单 击 Edit 按钮 ,弹出 Viewer 窗口 , 列 出 数据 集中 的 全 部 数据 。 该 窗口 以 二 维 表 的 
形式 展现 数据 ,用 户 可 以 查看 和 编辑 整个 数据 集 ,如 图 7-55 示 。 以 第 1 行为 例 ,病人 年 龄 为 
40 一 49, 更 年 期 为 premeno ,肿瘤 大 小 为 15 一 19. 受 侵 淋巴 结 数 为 0—2.node-caps f JJ yes, 
恶性 肿瘤 程度 为 3 ,肿块 位 置 为 right, 肿 块 所 在 象限 为 left_up ,是 否 放疗 为 no, 是否 复 发 为 
recurrence-events。 单 击 OK 按钮 ,返回 图 7-54。 
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7-53 Weka 主页 面 





图 7-54 选择 breast-cancer. arff 文件 


和 
| 


BSsSESSNSUPBNSNSOsIaszoR 


S$559555525$5555550 





图 7-55 breast-cancer. arff 数据 集 编辑 器 对 话 框 


C) 在 图 7-54 中 , 单 击 Classify 选项 卡 ,在 Classifier 栏 中 单 击 Choose 按钮 , 单 击 
functions 文件 夹 ,选择 SMO, EI SMO 分 类 器 。 如 图 7-56 所 示 o 





-W 1 -K "weka classifiers functions. supportVector. PolyKemel -E 1.0 -C 250007" -d 




















图 7-56 选择 SMO 分 类 器 
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© 在 图 7-56 中 ,使 用 默认 的 Cross-validation Folds ffi 10 , 单 击 Start 按钮 ,将 会 出 现 
SMO 的 分 类 结果 ,如 图 7-57 所 示 。 


0.329 — 0.149 
0.696 0.516 0.671 


171 30 | a= no-recurrence-events 
57 28 | b= recurrence-events 





图 7-57 SMO 分 类 器 的 结果 


图 7-57 展示 了 分 类 的 输出 结果 。 本 例 使 用 指数 为 1 的 PolyKernel( 多 项 式 核 ), 使 模型 
成 为 线性 支持 向 量 机 。 由 于 breast-cancer. arff 数据 包含 两 个 类 别 值 ,因此 输出 两 个 对 应 的 
二 元 SMO 模型 。 此 外 ,由 于 支持 向 量 机 是 线性 的 , 超 平面 表示 在 原来 空间 中 的 属性 值 的 
函数 。 


7.7 神经 网 络 


7.7.1 神经 网 络 基本 概念 


人 工 神 经 网 络 (Artificial Neural Network,ANN) 是 以 模拟 人 脑 神 经 元 为 基础 而 创建 
的 ,是 对 人 类 大 脑 系 统 特性 的 一 种 描述 。 神 经 元 可 以 看 作为 一 个 多 输入 、 单 输出 的 信息 处 理 
单元 ,其 数学 模型 一 般 如 图 7-58 所 示 。 





图 7-58 神经 元 模型 


其 中 ,n 个 输入 zx; 表示 当前 神经 元 的 输入 值 ,n 个 权 值 w; 表 示 连 接 强 度 ;了 是 一 个 线性 


输出 函数 ,又 称 激活 函数 或 激励 函数 ;y 表示 当前 神经 元 的 输出 值 。 
神经 元 的 工作 过 程 如 下 。 
CD 输入 端 接收 输入 信号 zx;。 


O 求 所 有 输入 的 加 权 和 , 即 net 一 luus 
i=1 


@ 对 net 进行 非 线性 变换 后 输出 结果 , 即 y==f(net)。 

神经 网 络 由 三 个 要 素 组 成 : 拓扑 结构 、 连 接 方式 和 学 习 规 则 。 

(1) 拓扑 结构 

拓扑 结构 是 一 个 神经 网 络 的 基础 ,其 设计 是 一 个 试验 过 程 ,可 能 影响 网 络 训练 结果 的 准 
确 性 。 如 果 网 络 经 过 训练 后 ,其 准确 性 仍 无 法 接受 , 则 通常 需要 采用 不 同 的 网 络 拓扑 结构 或 
使 用 不 同 的 初始 值 重 新 对 其 进行 训练 。 

拓扑 结构 可 以 分 为 单 层 、 两 层 或 者 三 层 。 其 中 , 单 层 神经 网 络 只 有 一 组 输入 单元 和 一 个 
输出 单元 。 两 层 神经 网 络 由 输入 单元 层 和 输出 单元 层 组 成 。 三 层 神 经 网 络 用 于 处 理 更 复杂 
的 非 线性 问题 。 在 这 种 模型 中 ,除了 输入 层 和 输出 层 外 ,还 引入 了 中 间 层 ,也 称 为 隐藏 层 , 隐 
藏 层 可 以 有 一 层 或 多 层 。 每 层 单元 的 输出 作为 下 一 层 单元 的 输入 ,神经 网 络 的 拓扑 结构 如 
图 7-59 所 示 。 


输入 层 输出 层 输入 层 输出 层 





输入 层 隐藏 层 输出 层 








(e) 三 层 神 经 网 络 的 拓扑 结构 


图 7-59 神经 网 络 的 拓扑 结构 


(2) 连接 方式 

神经 网 络 的 连接 包括 层 之 间 的 连接 和 每 一 层 内 部 的 连接 ,连接 的 强度 用 权 表示 。 神 经 
网 络 根据 连接 方式 的 不 同 分 为 前 馈 神经 网 络 .反馈 神经 网 络 和 层 内 有 互联 的 神经 网 络 。 

前 馈 神 经 网 络 也 称 前 向 神经 网 络 ,其 中 单元 分 层 排列 ,每 一 层 只 接收 来 自前 一 层 单元 的 
输入 ,无 反馈 。 反 馈 神 经 网 络 除了 单 向 连接 外 ,最 后 一 层 的 单元 的 输出 返回 作为 第 一 层 单元 
的 输入 。 层 内 有 互联 的 神经 网 络 是 指 在 一 个 层 内 的 神经 元 之 间 有 互 连 。 神 经 网 络 的 连接 方 
式 如 图 7-60 所 示 。 
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输入 层 输出 层 





输入 层 输出 层 














(a) 前 馈 神经 网 络 的 连接 方式 


输入 层 隐藏 层 输出 层 








(c) 层 内 有 互联 的 神经 网 络 的 连接 方式 


图 7-60 神经 网 络 的 连接 方式 


神经 网 络 的 学 习 分 为 离线 学 习 和 在 线 学 习 两 类 ,离线 学 习 是 指 神经 网 络 的 学 习 过 程 和 
应 用 过 程 是 独立 的 ,而 在 线 学 习 是 指 学 习 过 程 和 应 用 过 程 是 同时 进行 的 。 

根据 拓扑 结构 和 连接 方式 的 不 同 ,人 工 神经 网 络 有 多 种 网 络 模型 ,包括 前 馈 神经 网 络 、 
反馈 神经 网 络 .竞争 神经 网 络 和 自 映射 神经 网 络 等 。 本 节 重 点 介绍 前 馈 神经 网 络 。 在 前 馈 
神经 网 络 中 ,被 广泛 使 用 的 算法 是 误差 后 向 传播 (Back Propagation,BP) 算 法 ,此 算法 是 由 
Rumelhart 等 人 提出 的 。 


7.7.2 BP 神经 网 络 算法 过 程 


BP 算法 的 学 习 过 程 分 为 两 个 基本 子 过 程 , 即 工作 信和 号 正 向 传递 子 过 程 和 误差 信号 反 向 
传递 子 过 程 ,完整 的 学 习 过 程 如 下 。 对 于 一 个 训练 样本 ,其 迭代 过 程 如 下 : 调用 工作 信号 正 
向 传递 子 过 程 ,从 输入 层 到 输出 层 产 生 输出 信号 ,这 可 能 会 产生 误差 ,然后 调用 误差 信号 反 
向 传递 子 过 程 从 输出 层 到 输入 层 传递 误差 信号 ,利用 该 误差 信号 求 出 权 修改 量 , 以 便 更 新 权 
值 ,这 是 一 次 迭代 过 程 。 当 误差 或 权 修 改 量 仍 不 满足 要 求 时 ,以 更 新 后 的 权重 复 上 述 过 程 。 
BP 神经 网 络 如 图 7-61 所 示 o 

权重 偏 倚 


w, 
x —— 











初始 化 权重 : 网 络 的 权重 被 初始 化 为 小 随机 数 ( 如 由 一 1.0 到 1.0)。 每 个 单元 都 有 一 
个 相关 联 的 偏 傈 ,类 似 的 , 偏 傈 也 初始 化 为 小 随机 数 。 

每 个 训练 元 组 X 按 以 下 步骤 处 理 。 

CD 向 前 传播 输入 : 首先 ,将 训练 元 组 提供 给 网 络 的 输入 层 。 输 入 通过 输入 单元 不 发 生 
变化 ,也 就 是 说 ,对 于 输入 单元 j, 它 的 输出 值 CO 等 于 它 的 输入 值 万 。 

© 计算 隐藏 层 和 输出 层 的 每 个 单元 的 净 输 入 和 输出 。 隐 藏 层 和 输出 层 单元 的 净 输 入 
用 其 输入 的 线性 组 合计 算 。 每 个 连接 都 有 一 个 权重 。 为 计算 该 单元 的 净 输 入 ,连接 该 单元 
的 每 个 输入 都 乘 以 其 对 应 的 权重 ,然后 求 和 。 给 定 层 或 输出 层 的 单元 ; 到 单元 j 的 净 输入 
万 如 式 (7-51) 所 示 。 

I; = >o, O, + 6, (7-51) 


其 中 ,ww 是 由 上 一 层 的 单元 ;z 到 单元 7 的 连接 的 权重 ;O; 是 上 一 层 的 单元 i 的 输出 ;而 
0; 是 单元 7 的 偏 倚 , 偏 倚 充 当 阔 值 ,用 来 改变 单元 的 活性 。 

© 隐藏 层 和 输出 层 的 每 个 单元 取 其 净 输 入 ,然后 将 激活 (activation) 函数 作用 于 它 。 该 
函数 象征 被 该 单元 代表 的 神经 元 的 活性 ,使 用 logistic 或 sigmoid 函数 。 给 定单 元 j 的 净 输 
入 万 ,' 则 单元 7 的 输出 O; 如 式 (7-52) 所 示 。 


O, 


y ld e 

该 函数 又 称 为 挤 压 函 数 ,因为 它 是 将 一 个 较 大 的 输入 值 映射 到 一 个 较 小 的 区 间 0 到 1 
中 。 对 于 每 个 隐藏 层 , 直 到 输出 层 , 计 算 输出 值 0;。 

CD. 向 后 传播 误差 : 通过 更 新 权重 和 反映 网 络 预测 误差 的 偏 倚 向 后 传播 误差 。 对 于 输 
出 层 单元 j ,误差 Err; 的 计算 如 式 (7-53) 所 示 。 

Err; = O,(1—0O;)(T, — O;) (7-53) 

其 中 ,O; 蚌 单元 j 的 实际 输出 ,而 T ; 给 定 训练 元 组 的 已 知 目标 值 。 

为 计算 隐藏 层 单元 j 的 误差 ,考虑 下 一 层 中 连接 j 的 单元 的 误差 加 权 和 。 隐 藏 层 单元 j 
的 误差 如 下 。 


(7-52) 


Err; = 0;(1—0)) 》 Erritea (7-54) 


其 中 ,wj 是 由 下 一 较 高 层 中 单元 k 到 单元 j 的 连接 权重 ,而 Err 是 单元 & 的 误差 。 
C) 更 新 权重 和 偏 倚 , 以 反映 误差 的 传播 。 权 重用 式 (7-55) 和 式 (7-56) 更 新 ,其 中 ,Arw; 
是 权 wy 的 改变 量 。 
Aw; = lX Err;jO; (7-55) 
wg = wj + A ws (7-56) 
其 中 ,i 是 学 习 率 ,通常 取 0.0 到 1.0 之 间 的 常数 值 。 后 向 传播 使 用 梯度 下 降 法 搜索 权 
重 的 集合 ,这 些 权重 拟 合 训练 数据 ,使 样本 的 网 络 类 预测 与 元 组 的 已 知 目标 值 之 间 的 均 方 距 
离 最 小 。 学 习 率 帮助 避免 陷入 决策 空间 的 局 部 极 小 ,并 有 助 于 找到 全 局 最 小 。 如 果 学 习 率 
太 低 , 则 学 习 将 进行 得 很 慢 ;如 果 学 习 率 太 高 , 则 可 能 出 现在 不 适当 的 解 之 间 摆 动 的 情况 。 
一 种 调整 规则 是 将 学 习 率 设置 为 1/t, 其 中 导 是 已 对 训练 样本 集 迭 代 的 次 数 。 
© 偏 倚 由 式 (7-57) 和 式 (7-58) 更 新 。 其 中 ,Ab 是 偏 倚 0, 的 改变 量 ,计算 如 式 (7-57) 
和 式 (7-58) 所 示 。 
A0; = LX Err; (7-57) 
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0, = 0, + A0; (7-58) 

注意 ,每 处 理 一 个 样本 就 要 更 新 一 次 权重 和 偏 倚 , 称 为 实例 更 新 。 权 重 和 偏 倚 的 增 量 也 
可 以 累积 到 变量 中 ,可 以 在 处 理 完 训练 集中 的 所 有 元 组 之 后 再 更 新 权重 和 偏 傈 。 后 一 种 策 
略称 为 周期 更 新 ,扫描 训练 集 的 一 次 迭代 是 一 个 周期 。 理 论 上 ,后 向 传播 的 数学 推导 使 用 周 
期 更 新 ,而 在 实践 中 ,实例 更 新 更 常见 ,因为 它 通常 能 产生 更 准确 的 结果 。 

© 终止 条 件 : 如 果 前 一 周期 中 所 有 的 Ares 都 小 于 某 个 指定 的 冰 值 ,或 前 一 周期 误 分 类 
的 元 组 百分比 小 于 某 个 阔 值 或 超过 预先 指定 的 周期 数 , 则 训练 停止 。 

神经 网 络 分 类 算法 伪 代 码 。 


算法 :神经 网 络 分 类 算法 。 
输入 : 
数据 划分 D 是 训练 元 组 和 对 应 类 标号 的 集合 ; 
1: 学 习 率 
network: 多 层 前 馈 网 络 
输出 :训练 后 的 神经 网 络 。 
方法 : 
初始 化 network 的 所 有 权重 和 偏 倚 
while 终止 条 件 不 满足 
for D 中 每 个 训练 元 组 X 
// 向 前 传播 输入 : 
for 每 个 输入 层 单元 j 
O-1; // 输 入 单元 的 输出 是 它 的 实际 输入 值 
for 隐藏 或 输出 层 每 个 单元 j 
L= wa O +0;; // 关 于 前 一 层 i, 计 算 单元 j 的 净 输 入 


Q=1/(lte 5); // 计 算 单 元 3 的 输出 
// 后 向 传播 误差 
for 输出 层 每 个 单元 j 
Err,=0; 1-0) (5-0); // 计 算 误 差 
for 由 最 后 一 个 到 第 一 个 隐藏 层 ,对 于 隐藏 层 每 个 单元 3; 
Err=0 (1-0) (5-0) 2 Errvwr; 
for network 中 每 个 权 wy ( 


Aws- (1) ErryO:; // 权 重 增 量 

Wiy= Wig AW; // 权 重 更 新 } 
for network 中 每 个 偏 倚 9, { 

Ab= (1) Err;; // 偏 倚 增 量 

0;,=0;+A0;;) 


7.7.3 BP 神 经 网 络 分 类 算法 的 实例 


图 7-62 给 出 了 一 个 多 层 前 馈 神 经 网 络 。 令 学 习 率 为 0. 9, 第 一 个 训练 元 组 X 一 {0,1， 
1) ,其 类 标号 为 1。 

给 定 第 一 个 训练 元 组 X ,该 例 展示 后 向 传播 计算 。 首 先 把 该 元 组 提供 给 网 络 ,计算 每 个 
单元 的 净 输 入 和 输出 以 及 每 个 单元 的 误差 ,并 后 向 传播 。 


ss c 


=S 


图 7-62 多 层 前 馈 神 经 网 络 的 例子 


Vv 


O 已 知 初始 输入 : X;-0.X;—1.Xs—1. 
© 已 知 初始 权重 : wi 一 0. 2,rons 0. 5，rzuat 一 0. 3, wis 0. 1s wa 0. 5s wss 
0. 2 ,rw4 王 一 0. 3, ws =0. 2, 
© 已 知 初 始 偏 傈 : 0, 0. 4.0; 0. 2,6, 0. 1, 
@ 计算 每 个 单元 的 净 输 入 。 
和 一 0.2X0 十 0.3X1 十 (一 0.5) X1 十 (一 0.4) 0.6 
I; = (—0.5) X0+ (—0.1) X1+-0.2X 140.2 = 0.3 
Is = (— 0.3) X 0.354 +0. 2 X 0.574 + 0.1 = 0.109 
O 计算 每 个 单元 的 输出 。 
O, = 1/(1 + e**) = 0.354 
= 1/(1+ e**) = 0.574 
O, = 1/0 + €?) = 0.527 
© 计算 输出 层 6 的 误差 。 
Errs = 0.527 X (1 — 527) X (1 一 0.527) = 0.1179 
© 计算 隐藏 层 4、5 的 误差 。 
Err, = 0.574 X (1 — 0. 574) X 0. 1179 X 0. 2 = 0.0058 
Errs = 0.354 X (1 — 0. 354) X 0. 1179 x (— 0.3) =— 0. 0081 
计算 权重 的 改变 量 。 
Az = 0. 9 X 0. 1179 X 0. 354 = 0.0376 
Ausg = 0. 9 X 0. 1179 X 0. 574 = 0. 0609 
Aw = 0. 9 X (— 0. 0081) X 0 = 0 
Aws = 0. 9 X 0. 0058 X 0 —— 0 
Awa = 0. 9 X (— 0. 0081) X 1 =— 0. 0073 
Aws = 0. 9 X 0. 0058 X 1 = 0.0052 
Awa = 0. 9 X (— 0. 0081) X 1 =— 0. 0073 
Aws = 0. 9 X 0. 0058 X 1 = 0. 0052 
加 计算 偏 倚 的 改变 量 。 
Ab = 0.9 X 0. 1179 = 0. 1061 
Ab = 0.9 X 0. 0058 = 0.0052 
A0, = 0.9 X (— 0. 0081) 0. 0073 



































° 
| 











O 计算 最 终 的 权重 。 
ws = 0.0376 — 0. 3 =— 0. 262 
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wss = 0. 0609 + 0. 2 = 0.261 
wu = 0 + 0.2 = 0.2 
ws 一 0 一 0.5 =—0.5 
wa =— 0. 0073 +0. 3 = 0. 293 
wy = 0. 0052 — 0. 1 = 0. 095 
wa =— 0.0073 — 0. 5 =— 0. 507 
wss = 0. 0052 + 0. 2 = 0. 205 
@ 计算 最 终 的 偏 倚 。 
0, = 0.1061 +0. 1 = 0. 206 
0; = 0.0052 + 0. 2 = 0. 205 
0, —— 0.0073 — 0. 4 =— 0. 407 
为 了 对 未 知 元 组 X 进行 分 类 ,把 该 元 组 输入 训练 过 的 网 络 , 计 算 每 个 单元 的 净 输 入 和 输 
出 。 如 果 每 个 类 有 一 个 输出 节点 , 则 具有 最 高 输出 值 的 节点 决定 X 的 预测 类 标号 ,如 果 只 有 
一 个 输出 节点 , 则 输出 值 大 于 或 等 于 0. 5 的 可 以 视 为 正 类 ,而 输出 值 小 于 0. 5 的 可 以 视 为 负 类 。 


7.7.4 使 用 Weka 进行 神经 网 络 的 分 类 实例 


假设 用 温度 、 湿 度 、 天 气 情况 和 有 无 风 预 测 是 否 可 以 旅游 。 下 面 以 Weka 中 自 带 的 文件 
weather. nominal. arff 为 例 , 说 明神 经 网 络 分 类 器 的 操作 步骤 。 
(D 打开 Weka 软件 ,进入 软件 首页 ,如 图 7-63 所 示 。 








© Weka GUI Chooser - O0 x 


Program Visualization Tools Help 








图 7-63 Weka 图 形 用 户 界 面 选择 器 


@ 单 击 Explorer 按钮 ,进入 Weka 主页 面 ,如 图 7-64 所 示 。 

© 单 击 Open file... 按 钮 后 ,选择 需要 进行 分 析 的 文件 weather. nominal. arff 数据 集 ， 
如 图 7-65 所 示 。 

CD #& À. weather. nominal. arff 数据 后 可 以 得 到 数据 的 基本 信息 ,如 图 7-66 所 示 。 

Current relation 栏 描述 了 目前 的 关系 ,其 中 ,Relation: weather. symbolic 说 明 此 文件 
是 有 关 天 气 的 描述 ,是 文件 weather. nominal. arff 的 说 明 ; Instances:14 说 明 此 文件 中 有 14 
个 实例 ; Attributes:5 表明 有 5 个 属性 ;Sum of weights:14 表明 权重 和 为 14。Attributes 栏 
显示 了 文件 中 的 各 个 属性 ,分 别 为 outlook( 天 气 ) temperature i BE ) , humidity QE Æ), 
windy( 有 风 )、play (是 否 适合 旅游 ), 其 中 , outlook. 取 值 为 sunny, rainy 或 overcast, 
temperature 取 值 为 hot, mild 或 cool. humidity HX ffi Jy high 或 normal. windy 取 值 为 
FALSE 或 TRUE,play 取 值 为 no 或 yes, 
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图 7-64 Weka 主页 面 


ReutersGrain-estarf [F] supermarketarf 
[E ReutersGrain-raimart [E unbalanced art 
国 segment-challenge art: 国 vote arf 


JSON Instances files (* json) 
JSON Instances files (* json.gz) 





图 7-65 打开 weather. nominal, arff 文件 
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图 7-66 weather. nominal. arff 数据 基本 信息 


© 单 击 Edit 按钮 ,弹出 编辑 对 话 框 , 即 可 对 文件 进行 编辑 ,如 图 7-67 所 示 。 以 第 1 行 
为 例 ,编号 为 1, outlook 取 值 为 sunny; temperature 取 值 为 hot. humidity 取 值 为 high. 
windy 取 值 为 FALSE ,play 取 值 为 no。 





HA 


no 
no 

yes 
yes 
yes 
no 

yes 
no 

yes 
yes 
yes 
yes 
yes 
no 





图 7-67 数据 集 编辑 器 对 话 框 


© 在 图 7-66 中 ,选择 Classify 选项 卡 , 然 后 在 Classifier 中 单 击 Choose 按钮 ,如 图 7-68 
所 示 。 

@ 单 击 functions 文件 夹 ,选择 MultilayerPerceptron, 即 人 工 神经 网 络 分 类 器 。 如 
图 7-69 所 示 。 
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图 7-68 选择 分 类 器 





-V0-S0-E20-Ha | 


[Ë SimoleLinearfegression 


国 SimpleLogistic 
[5 suo 


ËB suoreç 
VoledP 





图 7-69 选择 神经 网 络 分 类 器 


在 图 7-70 中 选择 MultilayerPerceptron ,如 图 7-70 所 示 。 
© 在 图 7-70 中 .: 单 击 Choose 按钮 后 的 MultilayerPerceptron ,会 出 现 人 工 神 经 网 络 参 
数 修改 对 话 框 ,如 图 7-71 所 示 。 将 GUI 设置 为 True。 
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图 7-70 已 选 定 的 分 类 器 


A Classifier hat uses backpropagation to classify instances. 


| 


j| 


j| 


| 





图 7-71 神经 网 络 模型 参数 设置 


O 设置 好 参数 后 , 单 击 OK 按钮 ,如 图 7-72 所 示 。 


tron -L 0.3-M0.2-N 500-V0-S0-E20-Ha-G-R 





图 7-72 参数 设置 完成 


(D 在 图 7-72 中 ,选择 Test options 栏 中 的 Use training set, 然 后 单 击 Start 按钮 ,出 现 
一 个 新 的 窗口 ,描述 的 是 人 工 神经 网 络 的 分 类 图 形 , 如 图 7-73 所 示 。 





图 7-73 神经 网 络 图 形 
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(2 在 图 7-73 中 ,绿色 的 一 栏 表示 输入 层 ,红色 的 一 栏 表 示 隐 藏 层 , 黄 色 的 一 栏 表示 输 
出 层 ,最 后 一 栏 表示 输出 结果 。 在 Controls 栏 中 , 单 击 Start 按钮 可 以 重新 运行 分 类 器 , 单 
ili Accept 按钮 表示 对 分 类 结果 满意 。Epoch 表示 初始 迭代 次 数 ,Num Of Epochs 表示 规定 
和 迭代 次 数 ,此 处 规定 为 500, 可 以 修改 ,Error per Epoch 表示 每 次 迭代 的 误差 ,初始 为 0， 
Learning Rate 为 学 习 速 率 , 此 处 为 0.3, 可 以 修改 ,Momentum 表示 能 量 ,此 处 为 0.2。 单 击 
Start 按钮 后 ,运行 结果 如 图 7-74 所 示 。 





图 7-74 修改 参数 后 的 神经 网 络 图 形 


B 在 图 7-74 中 , 单 击 Accept 按钮 ,图 7-74 所 示 的 窗口 将 会 关闭 ,在 图 7-72 所 示 的 窗 
口 会 出 现 神经 网 络 对 数据 集训 练 、 预 测 完成 的 信息 ,如 图 7-75 所 示 , 





图 7-75 神经 网 络 模型 分 类 输出 结果 
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在 分 类 的 输出 结果 图 中 ,包括 对 训练 集 的 评估 、 总 结 \ 分 类 的 详细 的 准确 度 和 模糊 矩阵。 
在 评估 训练 集 处 ,测试 训练 数据 集 的 模型 接近 0s, 正 确 分 类 的 实例 数 为 14, 错 误 分 类 的 实例 
数 为 0, 由 此 可 得 出 准确 率 达 到 100 26 ,平均 绝对 误差 为 0.0245 ,平均 根 方差 为 0.0354。 


7.8 习题 


. ID3 算法 和 C4. 5 算法 的 区 别 是 什么 ? 

. 随机 森林 分 类 算法 在 构建 决策 树 的 过 程 中 需要 剪 枝 吗 ? 

.朴素 贝 叶 斯 算法 的 优 缺 点 是 什么 ? 

. 线性 回归 和 逻辑 回归 的 区 别 是 什么 ? 

. K 近邻 算法 中 的 距离 有 哪些 度量 方式 ? 

. 简 述 BP 神经 网 络 的 局 限 性 。 

. 请 使 用 如 表 7-13 所 示 的 训练 数据 构造 决策 树 ,使 用 ID3 算法 。 


X733 构造 决策 树 的 训练 数据 


wD 





喉 呢 痛 咳嗽 体温 ERRE 
是 8 高 是 
是 是 正常 E 
否 是 很 高 是 
是 是 高 是 
F 8 高 E 
是 是 很 高 是 
否 8 5 "5 











8. 训练 数据 如 表 7-14 所 示 ,其 中 有 4 个 特征 集合 : Ele A {青年 ,中 年 ,老年 ), 收 入 
B= 二 {高 ,中 等 , 低 ) ,兼职 C— 08 e) ,信用 D={ 差 ,良好 ) ,类 别 E={ 否 、 是 ), 即 “不 买 车 "和 
“ 买 车 ”。 根 据 训练 数据 确定 z= {青年 ,中 等 ,是 , 差 ) 的 类 标签 。 





表 7-14 训练 数据 
年 龄 收入 兼职 信用 买 车 
青年 高 否 差 B 
青年 高 否 良好 否 
中 年 高 否 差 是 
老年 中 等 否 差 是 
老年 低 是 差 是 
老年 低 是 良好 否 
中 年 低 是 良好 是 
青年 中 等 否 差 否 
青年 低 是 差 是 
老年 中 等 是 差 是 
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9. 使 用 BP 神经 网 络 建立 模型 并 预测 ,训练 集 为 Weka 自 带 的 diabetes. arff 文件 。 


聚 类 算法 分 析 强 调 把 对 象 的 集合 划分 为 多 个 聚 簇 ,从 而 可 以 更 好 地 分 析 对 象 。 本 章 介 
绍 聚 类 的 基本 概念 ,不 同类 型 的 聚 类 方法 和 聚 类 的 实例 ,从 而 更 好 地 理解 聚 类 算法 。 

聚 类 过 程 遵循 的 基本 步骤 为 特征 选择 ( 尽 可 能 多 地 包含 任务 关心 的 信息 ) 近邻 测度 ( 定 
量 测 定 两 个 特征 如 何 “ 相 似 ” 或 “不 相似 ”) ,准则 定义 (以 蕴含 在 数据 集中 类 的 类 型 为 基础 )、 
算法 调用 ( 按 近邻 测度 和 聚 类 准则 揭示 数据 集 的 聚 类 结构 ) S HR UE Ch HE GB GI o e E E 
类 结果 的 正确 性 ) 和 结果 判定 (由 专家 用 其 他 方法 判定 结果 的 正确 性 ) 。 


8.1 聚 类 概述 


8.1.1 聚 类 的 基本 概念 


“ 物 以 类 聚 , 人 以 群 分 ”。 聚 类 是 指 根据 * 物 以 类 聚 " 的 原理 ,将 本 身 没 有 类 别 的 样本 聚集 
成 不 同 的 组 ,这 样 的 一 组 数据 对 象 的 集合 称 为 簇 , 并 且 对 每 一 个 这 样 的 复 都 进行 摘 述 的 过 
程 。 聚 类 的 目的 是 使 属于 同一 个 簇 的 样本 之 间 彼 此 相似 ,而 不 同 簇 的 样本 之 间 足 够 不 相似 。 
与 分 类 规则 不 同 ,进行 聚 类 前 并 不 知道 将 要 划分 的 组 的 个 数 和 类 型 。 需 要 注意 的 是 ,在 回 
归 、 分 类 等 有 监督 学 习 任务 中 要 定义 类 别 标签 或 者 目标 值 , 但 聚 类 过 程 的 输入 对 象 没 有 与 之 
关联 的 目标 信息 ( 即 类 别 标签 或 者 目标 值 ) 。 正 因为 如 此 , 聚 类 通常 归于 无 监督 学 习 任 务 。 
由 于 无 监督 算法 不 需要 带 标签 数据 ,所 以 适用 于 许多 难以 获取 带 标签 数据 的 应 用 。 在 进行 
有 监督 学 习 任 务 之 前 ,经 常 需要 先 利 用 聚 类 等 无 监督 学 习 探 查 数据 集 并 挖掘 其 特性 。 由 于 
聚 类 不 使 用 类 别 标签 ,所 以 相似 性 的 概念 要 基于 对 象 的 属性 进行 定义 。 应 用 不 同 则 相似 性 
的 定义 和 聚 类 算法 都 会 不 同 。 所 以 ,不 同 的 聚 类 算法 使 用 的 数据 集 类 型 和 挖掘 目的 都 不 一 
样 。 因 此 ,最 优 ? 聚 类 算法 实际 上 依赖 于 具体 的 应 用 。 

理想 的 聚 类 效果 对 聚 类 方法 研究 提出 了 以 下 要 求 。 

(1) 处 理 不 同属 性 类 型 的 能 力 

现 有 的 许多 聚 类 算法 处 理 的 内 容 通常 为 数值 。 然 而 , 随 着 数据 收集 技术 的 多 元 化 发 展 ， 
聚 类 应 用 中 可 能 需要 对 其 他 类 型 的 数据 属性 进行 处 理 , 如 标 称 属 性 、 二 元 属性 序数 属性 、 数 
值 属 性 等 多 种 数据 属性 ,以 及 包含 多 种 类 型 数据 属性 的 混合 型 数据 集 。 事 实 上 , 越 来 越 多 的 
研究 开始 关注 包含 图 形 、 图 像 、 序 列 ,文档 等 复杂 类 型 数据 对 象 的 数据 集 的 聚 类 分 析 。 

(2) 可 伸缩 性 

聚 类 算法 不 仅 要 在 小 型 数据 集合 上 具有 和 良好 的 性 能 .对 于 很 多 并 不 局 限于 成 千 上 万 的 
数据 对 象 的 大 型 数据 库 ,甚至 在 超过 数 百 万 个 数据 对 象 的 大 型 数据 库 中 , 聚 类 算法 都 要 有 很 
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好 的 性 能 。 

(3) 对 于 确定 输入 参数 的 领域 知识 的 要 求 

许多 聚 类 算法 需要 数据 挖掘 用 户 提前 指定 聚 类 的 簇 数 目 才能 进行 聚 类 分 析 。 然 而 , 进 
行 数据 挖掘 的 用 户 并 不 一 定 是 该 数据 领域 的 专家 ,特别 是 当 该 参数 的 设 定 对 于 聚 类 的 结果 
影响 十 分 显著 时 ,用户 无 法 保证 提供 的 参数 一 定 合适 , 聚 类 的 质量 更 是 无 从 保证 。 对 于 高 维 
度 的 大 型 数据 集 ,不 仅 需 要 相当 专业 的 领域 知识 ,还 需要 深入 理解 数据 才能 确定 最 佳 的 复数 
目 , 这 在 很 大 程度 上 增加 了 用 户 聚 类 分 析 的 成 本 。 

(4) 发 现任 意 形状 的 簇 

常规 的 聚 类 分 析 算 法 的 相似 度 的 度量 方式 以 欧 几 里 得 距离 或 曼哈顿 距离 为 标准 ,而 这 
些 基于 距离 的 相似 度 度量 方法 对 于 发 现 具有 相近 尺寸 和 密度 的 球状 簇 很 有 效果 ,对 于 任意 
形状 簇 的 效果 并 不 理想 。 实 际 生活 中 的 数据 往往 并 不 是 球状 的 ,因此 ,对 于 可 以 发 现 非 球 状 
乱 的 聚 类 分 析 算 法 的 需求 已 经 越 来 越 迫 切 。 

(5) 处 理 噪 声 数据 的 能 力 

真实 世界 中 ,多数 的 数据 集 都 不 可 避免 地 包括 离 群 点 \ 不 完整 的 数据 甚至 错误 的 数据 ， 
这 些 异常 的 数据 称 为 噪声 数据 。 品 声 数据 很 容易 对 某 些 聚 类 算法 造成 干扰 ,从 而 影响 聚 类 
结果 的 质量 。 

(6) 增 量 聚 类 和 对 输入 次 序 不 敏感 

移动 互联 网 的 广泛 普及 使 大 型 数据 集 可 以 随时 进行 增 量 更 新 。 一 旦 数据 发 生 了 更 新 就 
需要 重新 聚 类 的 算法 是 缺乏 实用 意义 的 。 增 量 聚 类 应 该 将 增 量 更 新 的 数据 合并 到 已 存在 的 
篮 中 而 不 必 重 新 进行 聚 类 。 此 外 ,由 于 数据 产生 先后 的 不 确定 性 ,还 应 该 对 数据 输入 的 顺序 
不 敏感 ,这 样 的 聚 类 方法 才能 保证 聚 类 的 稳定 性 和 及 时 性 。 

(7) 聚 类 高 维 数据 的 能 力 

许多 聚 类 算法 在 处 理 低 维度 的 数据 时 的 效果 很 好 ,可 在 处 理 高 维度 的 数据 或 者 含有 大 
量 属 性 值 的 数据 集 时 的 聚 类 效果 很 差 ,例如 文本 数据 库 、 账 务 数据 库 、 视 频数 据 库 等 。 很 多 
应 用 领域 的 数据 都 是 高 维度 的 ,对 这 些 高 维 数据 进行 聚 类 分 析 是 一 个 挑战 。 

(8) 基于 约束 的 聚 类 

现实 生活 中 的 聚 类 可 能 要 满足 一 些 约束 条 件 ,使 聚 类 的 结果 在 满足 良好 的 聚 类 特征 的 
基础 上 又 要 满足 某 些 特定 的 约束 条 件 。 在 这 一 过 程 中 ,要 综合 考虑 多 方面 的 因素 ,如 何在 具 
有 和 良好 的 聚 类 性 能 的 同时 满足 特定 的 聚 类 要 求 是 一 项 极 具 挑 战 的 任务 。 

(9) 可 解释 性 和 可 用 性 

用 户 聚 类 的 目的 更 倾向 于 对 聚 类 结果 的 理解 。 也 就 是 说 ,通过 结合 特定 的 领域 知识 , 聚 
类 结果 应 该 可 以 解释 、 便 于 理解 以 及 具备 可 用 性 。 从 聚 类 的 结果 中 发 现 可 用 的 信息 也 是 聚 
类 的 最 终 价 值 。 


8.1.2 聚 类 算法 的 分 类 


伴随 着 聚 类 分 析 技 术 的 蓬勃 发 展 , 现 在 已 经 出 现 了 很 多 类 型 的 聚 类 方法 。 本 节 主 要 介 
绍 以 下 几 种 基本 的 聚 类 方法 。 


1. 基于 划分 的 方法 


基本 上 ,划分 方法 都 是 基于 距离 判断 数据 对 象 相似 度 的 ,通过 不 断 迭 代 的 技术 ,将 含有 
多 个 数据 对 象 的 数据 集 划 分 成 若干 个 簇 ,使 每 个 数据 对 象 都 属于 且 只 属于 一 个 簇 ,同时 聚 类 
簇 的 总 数目 小 于 数据 对 象 的 总 数目 。 

(1) K- 均 值 算法 

K- 均 值 算法 是 聚 类 分 析 中 最 著名 、 最 经 典 的 算法 。 该 算法 指定 数值 K 为 簇 的 数目 ,将 
待 聚 类 的 数据 集 置 于 欧式 空间 内 ,随机 选取 代表 每 个 簇 的 K 个 质心 ,作为 聚 类 过 程 的 初始 
中 心 点 ,同时 根据 每 个 数据 对 象 到 每 个 中 心 点 之 间 的 距离 将 数据 对 象 重新 分 配 至 最 近 的 簇 
内 ,每 次 迭代 后 再 次 更 新 相应 簇 的 中 心 点 ,直至 不 再 变化 。 由 于 该 算法 需要 用 户 指定 要 生成 
WIRA K 才能 使 用 ,不 同 的 K 值 对 聚 类 结果 会 产生 很 大 差别 ,影响 了 聚 类 结果 的 准确 
性 。 同 时 ,对 于 某 些 分 类 属性 的 数据 集 , 其 平均 值 可 能 无 法 定义 ,限制 了 算法 的 使 用 范围 。 
另外 ,由 于 随机 选取 了 簇 的 初始 中 心 点 ,算法 的 迁 代 次 数 可 能 并 不 理想 ,质量 过 差 的 初始 质 
心 可 能 使 K- 均 值 算 法 最 终 收 敛 于 局 部 最 优 解 ,而 不 是 全 局 最 优 解 。 

(2) K- 中 心 点 算法 

由 于 K- 均 值 算法 对 于 离 群 点 过 于 敏感 , 当 某 个 离 群 点 过 于 远离 大 多 数 数据 时 ,可 能 会 
严重 影响 簇 的 平均 值 , 进 而 影响 聚 类 质量 ,为 了 消除 这 种 影响 ,提出 了 -中 心 点 算法 。K- 中 
心 点 算法 与 K- 均 值 算法 相似 ,主要 区 别 在 于 K- 均 值 算法 用 质心 代表 整个 簇 ,而 K- 中 心 点 算 
法 用 簇 中 最 靠近 质心 的 实际 数据 对 象 代 表 整 个 簇 。 

PAM(Partitioning Around Medoids) 算 法 是 KK- 中心 点 算法 中 较为 流行 的 代表 算法 。 
该 算法 与 K- 均 值 算法 一 样 ,首先 随机 选取 初始 质心 ,然后 该 算法 用 其 他 对 象 尝试 蔡 换 当前 
质心 ,查看 是 否 有 助 于 提高 聚 类 质量 ,如 果 不 能 , 则 尝试 用 其 他 对 象 继续 进行 迭代 过 程 , 直 到 
聚 类 质量 不 能 进一步 提高 。 


2. 基于 层次 的 方法 


层次 方法 分 为 凝聚 的 方法 或 分 裂 的 方法 ,这 是 根据 聚 类 层次 形成 的 方向 进行 划分 的 。 
凝聚 的 方法 是 将 每 个 数据 对 象 作为 个 体 逐 渐 与 相似 的 对 象 合并 ,直到 满足 聚 类 的 目标 ,而 分 
裂 的 方法 则 恰好 相反 ,将 所 有 数据 对 象 作为 一 个 整体 ,逐渐 划分 成 复 以 满足 聚 类 的 条 件 。 层 
次 聚 类 不 局 限于 基于 距离 ,也 可 以 基于 密度 .连通 性 甚至 基于 空间 进行 聚 类 。 

层次 聚 类 的 过 程 是 不 可 逆 的 ,一 旦 凝聚 或 分 裂 了 数据 对 象 , 就 不 能 再 次 修正 了 ,这 样 很 
容易 导致 质量 低 的 聚 类 结果 。 


3. 基于 密度 的 方法 


典型 的 聚 类 方法 都 是 基于 距离 进行 聚 类 的 ,在 聚 类 非 球形 的 数据 集 时 并 不 理想 。 为 了 
发 现 不 规则 形状 的 簇 ,通常 将 簇 看 成 由 稀 朴 区 域 或 稠密 区 域 组 成 的 空间 ,基于 密度 的 方法 定 
义 邻 域 的 半径 范围 , 邻 域内 的 对 象 数目 超过 某 限 定 值 则 添加 到 簇 中 。 这 样 的 方法 可 以 发 现 
任意 形状 的 徐 。 此 外 ,基于 密度 的 方法 对 于 过 滤 噪 声 数据 也 很 有 效 。 
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4. 基于 网 格 的 方法 


基于 网 格 的 聚 类 方法 使 用 一 种 多 分 辩 率 的 网 格 数据 结构 , 它 将 对 象 空间 量化 成 有 限 的 
数目 单元 ,这 些 单元 形成 了 网 格 结构 ,所 有 的 聚 类 操作 都 在 该 结构 上 进行 。 这 种 方法 的 主要 
优点 是 处 理 速 度 快 ,其 处 理 时 间 独 立 于 数据 对 象 数 , 仅 依 赖 于 量化 空间 中 每 一 维 上 的 单 
元 数 。 


8.2 基于 划分 的 聚 类 


8.2.1 K- 均 值 算法 
1. K- 均 值 算法 的 概念 


K- 均 值 (K-Means) 算 法 是 一 种 基于 距离 的 聚 类 算法 ,采用 距离 作为 相似 性 的 评价 指标 ， 
即 认为 两 个 对 象 的 距离 越 近 , 其 相似 度 就 越 大 。 该 算法 认为 秘 是 由 距离 靠近 的 对 象 组 成 的 ， 
因此 将 得 到 的 紧凑 且 独 立 的 簇 作 为 最 终 目标 。 表 8-1 描述 了 常用 的 距离 度量 方法 。 

K 值 是 K- 均 值 算法 的 一 个 关键 输入 ,确定 K 值 的 典型 方法 是 依据 某 些 先 验 知识 , 例 
如 ,集合 中 实际 存在 的 或 当前 应 用 所 预期 的 聚 徐 数 量 , 当 然 也 可 以 通过 测试 不 同 的 K 值 进 
行 探查 聚 复 的 类 型 信息 ,从 而 最 终 选 定 合适 的 天 值 。 

在 K- 均 值 算 法 中 ,每 个 聚 簇 都 用 数据 集中 的 一 个 点 代表 ,这 K 个 聚 簇 代 表 有 时 也 被 称 
为 聚 得 均值 或 者 聚 秘 中 心 。 

在 K- 均 值 算法 中 ,本 节 采 用 欧 几 里 德 距离 ,最 小 化 的 目标 是 每 个 点 和 离 它 最 近 的 聚 簇 
代表 之 间 的 欧 几 里 得 距离 的 平方 和 最 小 。 目 标 函 数 如 式 (8-1) 所 示 。 

SSE = >) >) |o —m, |° (8-1) 


z=1o€C, 
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表 8-1 常用 的 距离 度量 方法 
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欧式 距离 平方 “| 各 变量 之 差 的 平方 和 dz) 一 Gc» 
切 贝 谢 夫 距离 | 各 变量 之 差 的 绝对 值 中 的 最 小 值 d (z+ y) = min, |z — y | 
布 洛克 距离 | 各 变量 之 差 的 绝对 值 之 和 dr) = D e=] 
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续 表 
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n" B m" Muy 
余弦 相似 性 Bj a = (tists sT.) 5 b = (ys eos (a.b ) e — M ———— 
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2. K- 均 值 算法 的 基本 流程 
K- 均 值 算法 的 基本 过 程 分 为 以 下 几 步 。 


CD H A K 的 值 , 即 希望 数据 集 D= (Oi ,0O;,… O) ,经 过 聚 类 得 到 K 个 分 类 或 分 组 。 
© 从 数据 集 D 中 随机 选择 K 个 数据 点 作为 徐 质 心 ,每 个 簇 质心 代表 一 个 徐 。 这 样 得 


到 的 簇 质 心 集合 为 Centroid= (Cy ,Co Cu). 
© 对 了 中 每 一 个 数据 点 Oj ,计算 O; 58 C, (j 二 1,2,…,k) 的 距离 ,得 到 一 组 距离 值 ,从 
中 找 出 最 小 距离 值 对 应 的 得 质心 C ,将 数据 点 O; 划 分 到 以 Cj 为 质心 的 簇 中 。 
@ 根据 每 个 簇 包 含 的 对 象 集合 ,重新 计算 得 到 一 个 新 的 簇 质心 。 若 |C | 是 第 xz 个 簇 
C; 中 的 对 象 个 数 , 则 m, 是 这 些 对 象 的 质心 ,如 式 (8-2) 所 示 。 


1 
o 





(8-2) 


"Te 
K- 均 值 算法 的 伪 代 码 如 下 所 示 。 


输入 : 

K: 鳞 的 数目 

D: 包 含 n 个 对 象 的 数据 集 

输出 :K 个 簇 的 集合 

执行 : 

从 D 中 任意 选择 K 个 对 象 作为 初始 的 代表 对 象 或 种 子 ， 

Repeat 
根据 簇 中 对 象 的 均值 ,将 每 个 对 象 分 配 到 最 相似 的 簇 ; 
更 新 复 均 值 , 即 重新 计算 每 个 簇 中 对 象 的 均值 ; 


Until 不 发 生变 化 。 
3. K- 均 值 算法 实例 
例 8.1 使 用 KK- 均值 算法 进行 聚 类 。 
数据 对 象 集合 S 如 表 8-2 所 示 ,作为 一 个 聚 类 分 析 的 二 维 样本 ,要 求 的 簇 的 数量 K —2. 
表 8-2 数据 集 
z 0 0 1.5 5 5 





y 2 0 0 0 2 
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数据 分 布 如 图 8-1 所 示 。 








| 
O + Oi. 
+ L e | l 1 + = 
^o; 0, o 5 
图 8-1 数据 分 布 图 


(D 选择 O1(0,2),O,(0,0) 为 初始 的 簇 中 心 , 即 M =0, =(0,2),M:=0,=(0,0), 
@ 对 剩余 的 每 个 对 象 ,根据 其 与 各 个 簇 中 心 的 距离 ,将 它 赋 给 最 近 的 簇 。 
Os: d(M,,O,) = V(0 一 1.5)7 十 (2 一 0)7 = 2.5 
d(M;.O,) = /(0—1.5)? + (0—0) 一 1.5 
RR d (M; .,O,)>d(M,.O,), ñiki O: 分 配给 C, 。 
O,: d (M .O) (0—5) + (2—0)? 29 
d(M:,0,) = V(0—5) + (0—0) —5 
显然 ,dCM -01)>d (M: 00 , 故 将 O, AT REIS C, , 
Os: d(Mi,0;)= V (0—5) + (2-2)! 一 5 
d (M; .0;) (0—5) + (0 — 2)° 29 
显然 ,dCM ,0O;) 二 d (M: ,O5) , 故 将 O r B6 Ci 。 
更 新 ,得 到 新 和 能: Ci = (040: 4C: = (0: 0.0.) 
计算 每 个 簇 的 平方 误差 准则 。 
SSE, = [(0— 0)? + (2 —2)2]+ [(0 — 5) + (2 — 222]= 25.M; = O, = (0,2) 
SSE, = [(0 —0)° + (0—0)2]+- [(0 — 1. 55* + (0 — 0? ]+ [(0 — 5° + (0 — 032] 
-—2 25; 
M, = O, = (0.0) 





































































































总 体 的 均 方 差 为 SSE 一 SSE, 十 SSE。 一 25 十 27. 25 一 52. 25 
新 簇 如 图 8-2 所 示 。 
© 计算 新 簇 的 中 心 。 

M, = H] (2.5,2) 

M, [2:955 1918] ETRO 


@ 重复 @ 和 @。 
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y4 
MCKO, Os 
ME ol 1 + o 
0 @ === Q,----------------- 0, x 


图 8-2 imb 


重复 四 和 图 后 ,得 到 O 分 配给 C, ,O, 分 配给 C, Os 分 配给 C; ,O, 分 配给 C, ,Os 分 配给 
Ci。 更 新 后 得 到 新 徐 。 即 
G =O: Ó= (01,0,,0;) 
中 心 : Mi —(2.5,2).Ms — (2.17.0) 
单个 方差 分 别 为 
SSE, 2[(2.5—0)* + (2—2)*]- [(2.5 —5)* + (2—2)*] 2 12.5 
SSE: 2[(2.17 —0)* 4-(0—0)* J+ [(2.17 —1.5)* 4- (0—0)* H 
[(2.17 —5)* + (0—0)?] 
=13.15 
AEF HRÆ HSSE=SSE, +SSE: —12. 5 十 13. 15 一 25. 65 
AE 8-3 所 示 。 


























了 

+O Me — s> 
CE -— NE 
à;------ Üj-SM,---- 2-2 TUS x 


图 8-3 dide 


由 以 上 可 以 看 出 ,在 第 一 次 迭代 后 ,总 体 平均 误差 值 由 52. 25 锐 减 到 25. 65, 且 两 次 迭 
代 后 的 簇 中 心 没有 再 变化 ,所 以 停止 迭代 过 程 ,算法 停止 。 
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8.2.2 ” K- 中 心 点 算法 
1. K- 中 心 点 算法 的 概念 


K- 中 心 点 (K-Medoids) 算 法 不 采用 得 中 对 象 的 平均 值 作为 参照 点 ,而 是 选用 簇 中 位 置 
最 中 心 的 对 象 , 即 中 心 点 作为 参照 点 。 

PAM(Partitioning Around Medoids) 算 法 是 最 早 提 出 的 K- 中 心 点 算法 之 一 。 该 算法 
首先 为 每 个 簇 随意 选择 一 个 代表 对 象 ,剩余 的 对 象 根据 其 与 代表 对 象 的 距离 分 配给 最 近 的 
一 个 簇 , 然 后 反复 地 用 非 代表 对 象 蔡 代 代 表 对 象 ,以 改进 聚 类 的 质量 。PAM 算法 对 于 较 小 
的 数据 集 非常 有 效 ,但 不 能 很 好 地 扩展 到 大 型 数据 集 。 

为 了 判定 一 个 非 代表 对 象 Owom 是 否 是 当前 一 个 代表 对 象 0; 的 好 的 蔡 代 ,对 于 每 一 个 
非 代表 对 象 p, 考 虑 下 面 的 四 种 情况 。 

第 一 种 情况 : p 当前 隶属 于 代表 对 象 0; ,如果 O; 被 Ou RE. E p 离 0; 最 近 ,i 与 j 
不 等 ,那么 p 被 重新 分 配给 O;。 

第 二 种 情况 : p 当前 隶属 于 代表 对 象 0; ,如 果 O; W O andon IV E. B. p BS O andon 最 近 , 那 
Z p 被 重新 分 配给 O mandom o 

第 三 种 情况 : p 当前 隶属 于 代表 对 象 0;, 且 i 与 j 不 等 ,如 果 OO; SECO uu RE H. p BI 
Oi 最近, 那么 对 象 的 隶属 不 发 生变 化 。 

第 四 种 情况 : p 当前 隶属 于 代表 对 象 0;, 且 i 与 j 不 等 ,如 果 OW O uuu WE H. p PS 
O, 最 近 , 那 么 p 被 重新 分 配给 O mandom o 


2. K- 中 心 点 算法 的 基本 流程 


K- 中 心 点 算法 的 基本 过 程 分 为 以 下 几 步 。 

D 从 7 个 数据 对 象 中 任意 选择 K 个 对 象 作为 初始 聚 类 中 心 的 代表 。 

@ 计算 其 余 各 对 象 与 这 些 中 心 对 象 间 的 距离 ,并 根据 最 小 距离 原则 将 各 对 象 分 配 到 离 
它 最 近 的 聚 类 中 心 所 在 的 簇 中 。 

C) 任意 选择 一 个 非 中心 对 象 Osa ,计算 其 与 中 心 对 象 ;交换 的 整个 成 本 。 

CD 若 S 为 负 值 , 则 交换 Ow 与 0; :以 构成 新 聚 类 的 K 个 中 心 对 象 。 

C) 循环 @ 到 @ ,直到 每 个 聚 类 不 再 发 生变 化 为 止 。 

K- 中 心 点 算法 的 伪 代 码 如 下 所 示 。 


输入 : 
K: 结 果 簇 的 个 数 
D: 包 含 n 个 对 象 的 数据 集合 
Lopes dp 
执行 : 
从 D 中 随机 选择 kx 个 对 象 作为 初始 的 代表 对 象 或 种 子 ; 
repeat 
将 每 个 剩余 的 对 象 分 配 到 最 近 的 代表 对 象 所 代表 的 簇 ; 
随机 选择 一 个 非 代表 对 象 Cn; 
计算 用 Qos 替换 代表 对 象 0 的 总 代价 s; 


if S«0,then Omi ERO ,形成 新 的 K 个 代表 对 象 的 集合 ; 
until 不 发 生变 化 。 


3. PAM 算法 实例 


例 8.2 使 用 PAM 算法 进行 聚 类 。 
样本 数据 集 如 表 8-3 所 示 ,样本 数据 分 布 如 图 8-4 所 示 , 样 本 点 间距 如 表 8-4 所 示 。 假 
WS K=2, 











表 8-3 数据 集 
z 0 0 1.5 5 5 
y 2 0 0 0 2 
y4 
o + O; 
0$ L el l l + -— 
O, 0; 0, x 


图 8-4 样本 数据 集 分 布 


表 8-4 样本 点 间距 








算法 执行 步骤 如 下 。 

CD 建立 初始 中 心 阶段 : 从 5 个 对 象 中 随机 抽取 2 个 作 点 为 中 心 点 {3,5} ,计算 其 他 对 
象 与 中 心 对 象 之 间 的 距离 , 按 距 离 最 小 原则 划分 , 则 样本 被 划分 为 {1,2,4) 和 {4,5}。 聚 类 
结果 如 图 8-5 所 示 o 

© 交换 中 心 阶段 : 假定 中 心 点 3.5 分 别 被 非 中 心 点 1.2.4 替换 ,分 别 计算 代价 TC 、 
TCs; , TC, MTC 、TCss、TCss ,其 中 ,TC; 表示 中 心 点 i 被 中 心 点 j 替换 后 的 总 代价 ,由 每 一 
个 样本 点 的 代价 组 成 ,样本 点 i 的 代价 表示 为 Ci。 

首先 求 TCs , 即 中 心 点 3 被 1 蔡 换 ,替换 后 的 中 心 点 为 {1,5} ,计算 其 他 对 象 与 中 心 对 
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图 8-5 初始 聚 类 图 


象 之 间 的 距离 , 按 距 离 最 小 原则 划分 , 则 样本 被 划分 为 {1,2,3} 和 {4,5}， 
样本 点 1 原先 属于 中 心 点 3 所 在 的 簇 , 现 在 样本 点 1 属于 中 心 点 1 所 在 的 簇 , 则 : 
C, = d(1,1)—d(1,3)=—2.5。 
样本 点 2 原先 属于 中 心 点 3 所 在 的 簇 ,现在 样本 点 2 属于 中 心 点 1 所 在 的 簇 , 则 : 
C, = d(2.1)— d(2,3)— 0.5, 
样本 点 3 原先 属于 中 心 点 3 所 在 的 簇 , 现 在 样本 点 3 属于 中 心 点 1 所 在 的 簇 , 则 : 
C, = d(3,1)—d(3,3)= 2.5, 
样本 点 4 原先 属于 中 心 点 5 所 在 的 簇 ,现在 样本 点 4 仍 属 于 中 心 点 5 所 在 的 簇 , 则 : 
C,—0, 


样本 点 5 原先 属于 中 心 点 5 所 在 的 簇 ,现在 样本 点 5 仍 属于 中 心 点 5 Brite UR LOU. 
C; =0, 











因此 ,TCs 


C, 


C; +C, +C, +G; 


0.5. 


同 理 , 求 得 TCs 











TC, =2. 8+3. 5 
TCs =(—2.5)4 


( 


0.5)+( 


1.5y-+-1.5T+-0+0 


7F8.54-C—2. 3) -0—8., 
-0--0--1. 2-F4—2. 7. 


0.5. 


TC — (—0.5)4- (—1.5) -04-1.2--4—3. 2, 

TCs —04-0--04- (—2.3) -2. 3—0. 

这 样 就 完成 了 PAM 的 第 一 次 迭代 ,发 现 若 将 中 心 点 3 H 2 蔡 换 时 ,TCs 一 一 0.5, 此 时 
由 代价 小 于 0 的 替换 ,中 心 点 为 {2,5} ,重复 第 二 步 , 假 定 中 心 点 2.5 分 别 被 非 中 心 点 1、3、4 
替换 ,分 别 计算 代价 TCa x TC,, x TC 和 TCa 、TC:s x TCs, o 

TC, 一 (一 2) 十 2 十 1 十 0 十 0 一 1。 

TC:: 一 (一 0.5) 十 1.5 十 (一 0.5) 一 0.5。 

TC, 一 3. 3 十 5 十 2 十 (一 2.3) 十 0 一 8。 

TCs — (一 2) 十 0 十 0 十 2.7 十 5 一 5.7。 

TCss = 二 0 十 0 十 (一 1.5) 十 1. 22-4—3. 7, 

TC, = 二 0 十 0 十 0 十 (一 2.3) 十 2.3==0。 



























































这 样 就 完成 了 PAM 的 第 二 次 迭代 ,发 现 没有 代价 小 于 0 的 蔡 换 ,所 以 这 是 最 终结 果 。 
聚 类 结果 如 图 8-6 所 示 。 聚 成 的 2 2879 (1.2.3) FL (4.5) ,此 时 的 中 心 点 为 {2,5}。 








2 
sd EN "`S 
/ 
0,7%- N fose N 
Ó ! ` 
Ë " I 1 
I n 1 
I 1 1 j 
! 上 1 I 1 
' I ' i 
I 1 ' 1 
Y h 1 ! 
N / 1 I 
n l= 1 1 A LJ — 
5. / 
ON、 27/0, N 9. x 
图 8-6 最 终 聚 类 图 


8.2.3 使 用 Weka 进行 基于 划分 的 聚 类 实例 


Weka 系统 上 提供 了 一 个 名 为 SimpleKMeans 的 函数 ,选取 Weka 中 的 默认 数据 集 
weather. numeric. arff ,将 数据 集聚 集 为 sunny ,overcast 和 rainy, 实 现 了 基于 划分 的 聚 类 算 
法 。 下 面 借助 Weka 演示 SimpleKMeans 算法 对 weather 数据 集 进行 聚 类 的 操作 步骤 与 聚 
类 结果 。 具 体 步骤 如 下 。 


(D 打开 Weka 软件 ,弹出 Weka 用 户 界 面 页 ,如 图 8-7 所 示 。 


© Weka GUI Chooser 


Program Visualization Tools Help 





8-7 Weka 图 形 用 户 界 面 选择 器 


© 在 图 8-7 中 , 单 击 Explorer 按钮 ,进入 Weka 主页 面 , 如 图 8-8 所 示 o 

© 在 图 8-8 中 , 单 击 Open file... 按 钮 ,选择 需要 进行 聚 类 的 文件 ,这 里 选择 weather. 
numeric. arff 文件 进行 说 明 。 选 择 后 的 页 面 如 图 8-9 Bros 。 

在 图 8-9 中 ,Current relation 描述 了 当前 的 关系 ,其 中 ,Relation:weather 说 明 此 文件 
是 有 关 天 气 的 描述 ,Instances:14 说 明 此 文件 中 有 14 个 实例 ,Attributes:5 表明 有 5 个 属 
性 ,Sum of weights 表明 权重 和 为 14。Attributes 栏 显示 了 文件 中 的 各 个 属性 ,分 别 为 
outlook CK ^) .temperature( 温 度 ) .humidity( 湿 度 ) , windy CH JU) 、play( 是 否 适合 旅游 )， 
其 中 ,outlook 取 值 为 sunny,rainy 或 overcast,windy 取 值 为 FALSE 或 TRUE,play 取 值 为 


217 


28 数据 分 析 与 数据 挖 报 








图 8-8 Weka 主页 面 








图 8-9 打开 Weather 数据 文件 


@ 单 击 Edit... 按 钮 ,弹出 Viewer 对 话 框 , 即 可 对 文件 进行 编辑 ,如 图 8-10 所 示 。 以 第 
1 行为 例 , 由 图 8-10 可 知 ,编号 为 1, outlook 取 值 为 sunny. temperature 取 值 为 85. 0. 
humidity 取 值 为 85. 0,windy Jf Jy FALSE. play 取 值 为 no. 

在 图 8-10 中 , 单 击 Add instance 按钮 , 即 可 添加 实例 ; 单 击 Undo 按钮 , 即 可 撤销 操作 ; 
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850 FALSE 


900 TRUE 
860 FALSE 
960 FALSE 
800 FALSE 
700 TRUE 
650 TRUE 
950 FALSE 
70.0 FALSE 
800 FALSE 
70.0 TRUE 
90.0 TRUE 
750 FALSE yes 
910 TRUE 





图 8-10 数据 集 编辑 器 对 话 框 


保存 可 单 击 OK 按钮 ;取消 可 单 击 Cancel 按钮 。 
© 在 图 8-9 中 ,选择 Cluster 选项 卡 ,在 Cluster 栏 中 单 击 Choose 按钮 ,选择 SimpleKMeans， 


如 图 8-11 所 示 。 











图 8-11 SimpleKMeans 算法 选择 


© 在 图 8-11 中 ,选择 SimpleKMeans 算法 后 的 页 面 如 图 8-12 所 示 。 

CD 在 图 8-12 中 , 单 击 Cluster 栏目 下 的 Choose 按钮 后 的 SimpleK Means 文本 框 ,弹出 
对 话 框 选择 cluster 标签 后 的 文本 框 , 可 以 调整 numClusters 参数 设置 聚 类 的 数量 ;弹出 对 
话 框 后 可 以 通过 调整 numClusters 的 值 确定 聚 类 的 数量 ,这 里 选择 的 是 3 个 ,设置 好 参数 
后 , 单 击 Save... 按 钮 即 可 保存 修改 , 单 击 Cancel 按钮 即 可 撤销 修改 , 单 击 OK 按钮 即 可 完成 
修改 ,如 图 8-13 所 示 。 
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8-13 SimpleKMeans 算法 的 参数 列表 
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在 图 8-12 中 , 单 击 Start 按钮 即 可 运行 聚 类 。SimpleKMeans 算法 的 结果 如 图 8-14 
所 示 fE Cluster output 输出 栏目 中 可 以 看 到 输出 聚 类 后 的 结果 , 聚 类 分 成 了 3 类 : 第 1 类 
用 0 标记 ,表示 rainy 所 在 的 徐 , 有 6 个 数据 , 占 全 部 数据 的 43%; 第 2 类 用 1 标记 ,表示 
overcast 所 在 的 簇 , 有 3 个 数据 , 占 全 部 数据 的 2126: 58 3 类 用 2 标记 ,表示 sunny 所 在 的 
簇 , 有 5 个 数据 , 占 全 部 数据 的 36%% 。 





73.5714 74.3333 — 70.3333 
81.6429 — 81.1667 15 
FALSE FALSE TRUE 
yes yes 


Time taken to build model (full training data) : 


一 Model and evaluation on training set — 
Clustered Instances 
6 (438) 


3 (21 
5 (360) 





图 8-14 运行 结果 


8.3 基于 层次 的 聚 类 


8.3.1 基于 层次 的 聚 类 的 基本 概念 


层次 聚 类 方法 (Hierarchical Clustering Method) 是 一 种 应 用 广泛 的 经 典 聚 类 算法 ,能 
够 揭示 某 些 数 据 中 蕴含 的 层次 结构 ,如 对 公司 的 职员 组 织 进行 划分 、 按 照 生物 学 特征 对 动物 
分 组 以 期 发 现 物种 的 分 层 结构 、 对 战略 游戏 进行 布局 归纳 以 帮助 训练 棋 手 的 游戏 战略 等 。 
用 层次 结构 的 形式 表述 数据 对 象 , 有 助 于 数据 汇总 和 可 视 化 。 层 次 聚 类 方法 通过 将 数据 对 
象 组 织 成 若干 组 (或 复 ) 形 成 一 个 相应 的 树 进行 聚 类 ,可 分 为 凝聚 层次 分 类 和 分 裂 层 次 聚 类 ， 
典型 代表 算法 分 别 有 DIANA C(Dlvisive ANAlysis) 算法 和 AGNES ( AGglomerative 
NESting) 算 法 。 通 过 这 种 方式 的 聚 类 在 合并 或 分 裂 点 的 选择 上 会 有 一 定 困难 ,如 果 选 择 不 
当 则 会 导致 低 质量 的 聚 类 效果 ,因此 提高 层次 聚 类 质量 的 算法 相继 被 提出 ,典型 代表 算法 有 
ROCK ( RObust Clustering using linKs), CURE (Clustering Using REpresentatives ) 、 
BIRCH(Blanced Iterative Reducing and Clustering using Hierarchies) 和 Chameleon 算法 。 
下 面 分 别 从 算法 原理 、 算 法 过 程 和 实例 步骤 分 解 方面 介绍 每 个 典型 的 代表 算法 。 
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8.3.2 类 间距 离 度量 


无 论 是 分 裂 方 法 还 是 凝聚 方法 ,层次 聚 类 的 关键 步骤 是 计算 两 个 簇 之 间 的 距离 ,由 于 簇 
是 由 若干 对 象 组 成 的 ,其 本 质 是 计算 两 个 对 象 之 间 的 距离 。 类 间距 离 的 度量 主要 采用 以 下 
方法 。 

CD 最 短 距离 法 (最 大 相似 度 ) : 定义 两 个 类 中 最 靠近 的 两 个 对 象 间 的 距离 为 类 间距 离 。 
如 式 (8-3) 所 示 。 

















dist; (C,,C;)= min{ |p —q|) (P € Ci,g € C;) (8-3) 
@ 最 长 距离 法 (最 小 相似 度 ): 定义 两 个 类 中 最 远 的 两 个 对 象 间 的 距离 为 类 间距 离 。 
如 式 (8-4) 所 示 。 
dist, (C;.C;) 2 max{ | p— q|} (p E€ C,,q € G) (8-4) 
@ 类 平均 法 : 计算 两 类 中 任意 两 个 对 象 间 的 距离 , 取 它 们 的 平均 值 作为 类 间距 离 。 如 
式 (8-5) 所 示 o 





dist. (Cj4C;)— - L Dlp—gl}(pE C,,q € C) (8-5) 
@ 中 心 法 : 定义 两 类 的 两 个 中 心 点 的 距离 为 类 间距 离 。 如 式 (8-6) 所 示 。 
distmean (C; C; ) = | m; — mj; | (8-6) 


同一 种 层次 的 聚 类 方法 , 选 定 的 类 间距 度量 不 同 , 聚 类 的 次 序 和 结果 也 可 能 不 同 。 
8.3.3 分 裂 层 次 聚 类 
1. DIANA 算法 的 概念 


分 裂 的 层次 聚 类 方法 使 用 自 顶 向 下 的 策略 把 对 象 划分 到 层次 结构 中 。 从 包含 所 有 对 象 
的 簇 开始 ,每 一 步 分 橡 一 个 簇 ,直到 仅 剩 下 单 点 簇 , 或 者 满足 用 户 指 定 的 簇 的 个 数 时 终止 。 
这 种 方式 需要 确定 将 要 分 裂 的 复 和 分 裂 方 式 。 

DIANA 算法 是 典型 的 层次 分 裂 聚 类 算法 。 在 聚 类 中 ,以 指定 得 到 的 复数 作为 结束 条 
件 , 同 时 它 采 用 平均 距离 (或 称 为 平均 相 异 度 ) 作 为 类 间距 度量 方法 ,并 且 指 定 簇 的 直径 由 簇 
中 任意 两 个 数据 点 的 距离 中 的 最 大 值 表示 。 

DIANA 算法 用 到 如 下 两 个 定义 。 

簇 的 直径 : 在 一 个 簇 中 的 任意 两 个 数据 点 之 间 都 有 一 个 欧式 距离 ,这些 距离 中 的 最 大 
值 是 簇 的 直径 。 

平均 相 异 度 : 两 个 数据 点 之 间 的 平均 距离 。 


2. DIANA 算法 的 基本 流程 


DIANA 算法 的 基本 过 程 分 为 以 下 几 步 。 

CD 把 所 有 对 象 整体 作为 一 个 初始 簇 。 

© 将 splinter group 和 old party 两 个 对 象 集合 置 空 。 

O 在 所 有 簇 中 挑选 出 具有 最 大 直径 的 徐 C, 找 出 C 中 与 其 他 点 平均 相 异 度 最 大 的 一 个 
点 p, 把 p 放 入 splinter group ,剩余 的 点 放 和 人 old party 中 ,然后 不 断 地 在 old party 中 找 出 
一 点 ,使 该 点 到 splinter group 中 的 点 的 最 近 距 离 小 于 等 于 其 到 old party 中 的 点 的 最 近 距 


离 ,并 把 该 点 加 入 splinter group, 直 到 没有 新 的 old party 的 点 被 找到 。 此 时 , splinter 
group 和 old party 两 个 簇 与 其 他 簇 一 起 组 成 新 的 簇 集合 。 

CD 重复 步骤 @ ,直至 簇 的 数目 达到 终止 条 件 规定 的 数目 。 

DIANA 算法 的 伪 代 码 如 下 所 示 。 


输入 :包含 pn 个 对 象 的 数据 集 , 簇 的 数目 
输出 :终止 条 件 规定 的 K 个 簇 
执行 : 
把 所 有 对 象 整体 作为 一 个 初始 簇 ; 
for (i=1;i!=k;i++){ 
EMAR rp Boe ih FUR 2 K ELI I f; 
找 出 所 提出 簇 中 与 其 他 点 平均 相 异 度 最 大 的 一 个 点 放 入 splinter group, # R BU Jt À. old 
party 中 。 
repeat 
在 old party 中 找 出 到 splinter group 中 点 的 最 近 距 离 不 大 于 old party 中 点 的 最 近 距 离 的 
点 ,并 将 该 点 加 入 splinter group; 
until 没有 新 的 old party 的 点 被 分 配给 splinter group; 
splinter group 和 old party 为 被 选中 的 簇 分 裂 成 的 两 个 簇 ,与 其 他 敌 一 起 组 成 新 的 簇 集合 ;} 


3. DIANA 算法 实例 


例 8.3 使 用 DIANA 算法 进行 聚 类 。 
样本 数据 集 如 表 8-5 所 示 , 样 本 点 间距 如 表 8-6 所 示 。 设 终止 条 件 为 k= 二 2, 采 用 
DIANA 算法 进行 层次 聚 类 。 


表 8-5 数据 集 























样本 点 1 2 3 4 5 
1 0 2 2:5 5,3 5 
2 2 0 1.5 5 5.3 
3 2.5 1.5 0 3.5 4 
4 5.3 5 3.5 0 2:3 
5 5 5.3 4 2:3 0 


fg. 初始 徐 为 {A.,B,C,D,E}。 

(D 找到 具有 最 大 直径 的 簇 ,开始 就 是 初始 簇 ,对 簇 中 的 每 个 点 计算 平均 距离 (假设 采用 
欧 几 里 得 距离 )。 

点 A 的 平均 相 异 度 : (2 十 2. 5 十 5. 3 十 5)/4 一 3.7 

点 B 的 平均 相 异 度 : (2 十 1. 5 十 5 十 5. 3)/4 一 3. 45 

点 C 的 平均 相 异 度 : (2. 5 十 1. 5 十 3. 5 十 4)/4 二 2. 875 
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点 卫 的 平均 相 异 度 : (5. 3 十 5 十 3. 5 十 2. 3)/4 一 4. 025 

A E 的 平均 相 异 度 : (5 十 5.3 十 4 十 2. 3)/4 一 4. 15 

将 平均 相 异 度 最 大 的 点 A 放 到 splinter group 中 ,剩余 点 在 old party 中 。 

© 在 old party 中 找 出 到 splinter group 中 的 点 的 最 近 距 离 小 于 等 于 到 old party 中 的 
点 的 最 近 距 离 的 点 ,找到 B, 把 该 点 加 入 splinter group。 在 此 数据 集中 , 仅 有 点 D 到 点 B 的 
距离 2. 3 二 3.5, 所 以 将 点 BHA splinter group 中 。 

O 重复 步骤 四 ,没有 新 的 old party 中 的 点 放 入 splinter group, 此 时 分 裂 的 簇 数 是 2, 达 
到 终止 条 件 , 算 法 结束 。 如 果 没 有 达到 终止 条 件 , 则 下 一 阶段 会 从 分 裂 好 的 簇 中 选择 一 个 直 
径 最 大 的 簇 继续 分 裂 。 

上 述 步骤 对 应 的 簇 的 变化 如 表 8-7 所 示 ,最终 聚 类 结果 为 {A,B,C} 和 {D,E)。 


表 8-7 DIANA BUT ERE š B) Se 4 
步骤 ROS CK EUG BO splinter group old party 








° {A,B,C,D,E} {E} {A,B,C,D} 
Q {A,B,C,D,E} {D,E} {A,B,C} 终 止 





分 橡 方法 的 一 个 挑战 是 如 何 把 一 个 大 簇 划 分 成 几 个 较 小 的 徐 。 例 如 ,把 包含 个 对 象 
的 集合 划分 成 两 个 互 斥 的 子 集 有 2”' — 1 种 可 能 性 , 当 很 大 时 ,考察 所 有 的 可 能 性 不 具有 
可 操作 性 ,所 以 分 裂 方法 通常 采用 启发 式 方法 进行 划分 ,会 牺牲 部 分 聚 类 效果 。 


8.3.4 ”凝聚 层次 聚 类 
1. AGNES 算法 的 基本 概念 


凝聚 的 层次 聚 类 方法 使 用 自 底 向 上 的 策略 把 对 象 组 织 到 层次 结构 中 。 开 始 时 以 每 个 对 
象 作为 一 个 徐 ,每 一 步 合并 两 个 最 相似 (距离 最 近 ) 的 簇 。 这 种 方法 需要 定义 簇 的 相似 性 度 
量 方式 和 算法 终止 的 条 件 。 层 次 凝聚 时 采用 的 最 短 距 离 法 称 为 单 链 或 MIN 层次 凝聚 ,相应 
地 采用 最 长 距离 法 称 为 全 链 或 MAX 层次 凝聚 。 

AGNES 算法 是 典型 的 凝聚 层次 聚 类 方法 ,最 初 将 每 个 对 象 作为 一 个 复 , 然 后 根据 某 些 
准则 一 步 步 地 合并 这 些 簇 。 两 个 篮 间 的 相似 度 由 这 两 个 不 同 簇 中 距离 最 近 的 数据 点 的 相似 
度 确 定 , 聚 类 的 合并 过 程 反 复 进行 直到 所 有 对 象 最 终 满足 终止 条 件 设置 的 簇 数 目 。 


2. AGNES 算法 的 基本 流程 


AGNES 算法 的 过 程 基 本 分 为 以 下 几 步 。 

CD 将 每 个 对 象 当成 一 个 初始 簇 。 

© 根据 两 个 簇 中 最 近 的 数据 点 找到 最 近 的 两 个 簇 。 
© 合并 两 个 簇 , 生 成 新 的 簇 的 集合 。 

CD 重复 步骤 @ 和 @ ,直到 达到 定义 的 簇 的 数目 。 
AGNES 算法 的 伪 代 码 如 下 所 示 。 


输入 :包含 n 个 对 象 的 数据 集 , 艇 的 数目 
输出 :终止 条 件 规定 的 ITE 
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执行 : 

把 每 个 对 象 都 当 作 一 个 初始 簇 ; 

repeat 
根据 两 个 簇 中 最 近 的 数据 点 之 间 的 距离 找到 最 近 的 两 个 入 ; 
合并 这 两 个 簇 , 生 成 一 个 新 的 能 的 集合 ; 

until 达到 终止 条 件 规定 的 簇 的 数目 


3. AGNES 算法 的 实例 


例 8.4 使 用 AGNES 算法 进行 聚 类 。 
假设 终止 条 件 为 & 一 2 ,样本 数据 集 如 表 8-8 所 示 ,样本 点 间距 如 表 8-9 所 示 。 通 过 对 样 
本 数据 集 进 行 分 析 , 详 细 展 示 AGNES 的 聚 类 过 程 。 








表 8-8 数据 集 
= 0 0 1.5 5 5 
y 2 0 0 0 2 
表 8-9 样本 点 间距 
样本 点 A B C D E 
A 0 2 2.5 5.3 5 
B 2 0 1.5 5 5.3 
C 2.5 1.5 0 3.5 4 
D 5.3 5 3.5 0 2.3 
E 5 5.3 4 2.3 0 
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离 为 1.5, 合 并 B.C 39 14 RRUB.C) ,命名 为 下 ,此 时 有 {A.,D,E,F)。 
© 根据 最 短 距离 ,对 上 一 次 合并 后 的 簇 计算 徐 间 距离 , 找 出 距离 最 近 的 两 个 簇 进行 合 
并 ,此 时 : 
d(A.F)= min{d(A,B),d(A.C)}= min{2,2.5}= 2 
d(D.F)= min(d(D.B).d(D.C)) — min{5,3.5}= 3.5 
d(E.F)— min(d (E.B).d(E.C)) — min(5.3,4) = 4 
d(A.D)— 5.3 
d(A.E)— 5 
d(D.E)- 2.3 
由 此 可 知 ,最 小 距离 为 2.3, 合 并 D.E 点 为 1 SI D.E) .命名 为 G, 此 时 有 {A,F,G})。 
O 根据 最 短 距离 ,对 上 一 次 合并 后 的 簇 计算 徐 间 距离 , 找 出 距离 最 近 的 两 个 簇 进行 合 
并 ,此 时 : 
d(A.F)— min(d(A.B).d(A.C)) — min(2.2.5) = 2 
d (A.F)— min(d(A.D).d(A.E))— min(5.3,5) = 5 
d (F.G)— min(d (B.D).d (B.E):d(C.D) .d(C.E)) — min(5.5.3.3.5.4) = 3.5 
由 此 可 知 最 小 距离 为 2, 合 并 A 和 下 SEI 1AA, F). BIA, B,C), ERTA SIUE ñ 
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数据 分 析 与 数据 挖 握 


簇 的 数目 ,分 别 为 1{A4,B,C} 和 {D,E}。 由 于 合并 后 得 的 数目 已 经 达到 了 用 户 输入 的 终止 条 
件 , 因 此 算法 结束 。 
上 述 步 骤 对 应 的 簇 的 变化 如 表 8-10 所 示 ,最 终 的 聚 类 结果 为 {A,B,C} 和 {D,E)}。 


表 8-10 AGNES 执行 过 程 中 复 的 变化 





步骤 最 近 的 两 个 簇 合并 后 的 新 簇 

° {B},{C} {B,C}, {A}, {D} {E} 

© {D}, {E} {B,C}, {D,E} 

@ {A},{B,C} {A,B,C},{D,E} 算 法 终止 





8.3.5 BIRCH 算法 
1. BIRCH 算法 的 基本 概念 


DIANA ffl AGNES 算法 的 处 理 过 程 都 相对 简单 ,无 论 分 裂 还 是 凝聚 ,都 会 遇 到 合并 或 
分 裂 点 选择 的 困难 。 通 常 为 了 提高 效率 ,分 裂 或 凝聚 不 会 对 已 经 作出 的 划分 决策 进行 回溯 
一 旦 一 组 对 象 被 合并 或 者 分 裂 , 下 一 步 的 处 理 将 在 新 生成 的 徐 上 进行 ,已 作 的 处 理 不 能 被 撤 
销 , 聚 类 之 间 也 不 能 交换 对 象 ,如 果 在 某 一 步 没 有 很 好 地 选择 合并 或 分 裂 的 决定 , 则 可 能 会 
导致 低 质 量 的 聚 类 结果 。 而 且 ,这些 算法 运行 消耗 的 时 间 与 对 象 个 数 的 平方 呈正 比 ,对 于 
nn 很 大 的 情况 并 不 适用 。 

利用 层次 结构 的 平衡 迭代 归 约 和 聚 类 (Balanced Iterative Reducing and Clustering 
using Hierarchies, BIRCH) 算 法 是 为 大 量 数值 数据 聚 类 设计 的 ,将 层次 聚 类 (在 初始 微 聚 类 
阶段 ) 与 其 他 聚 类 算法 ,如 迭代 划分 算法 (在 其 后 的 宏 聚 类 阶段 ) 集 成 在 一 起 。 

BIRCH 算法 利用 数据 点 的 聚 类 特征 CF 值 构建 一 棵 CF 树 进 行 聚 类 。 通 过 CF 值 可 以 
快速 地 进行 聚 类 ,以 及 估计 同一 个 类 中 的 相似 程度 。 

CF 是 一 个 三 元 组 (N.LS,SS),N 是 包含 向 量 的 个 数 ,LS 是 向 量 的 线性 和 ,SS 是 向 量 
的 平方 和 。 

CF 具有 线性 ,对 于 两 复合 并 CF= CF, + CF;, (N,LS,SS)= (N, + N. ; LS, + LS; , 
SS, +SS). 

每 个 节点 的 CF 值 就 是 其 所 有 孩子 节点 CF 值 之 和 ,以 每 个 节点 为 根 节点 的 子 树 都 可 
以 看 成 是 一 个 徐 。 有 了 CF 值 后 ,就 可 以 构建 一 棵 CF 树 。 

同时 ,对 于 簇 中 心 的 定义 如 式 (8-7) 所 示 , 簇 半径 的 定义 如 式 (8-8) 所 示 , 簇 直径 的 定义 
如 式 (8-9) 所 示 , 两 个 簇 之 间 的 距离 如 式 (8-10) 所 示 , 进 行 数学 演算 之 后 得 到 的 簇 直径 如 式 
(8-11) Brzn ,演算 之 后 得 到 的 两 簇 之 间 的 距离 如 式 (8-12) 所 示 。 





25 X; 
簇 中 心 : X。 = (8-7) 
(X, — X.) | 
iF: R = E | (8-8) 
N 
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(X, —X) |° 
WEH: D= | i m | (8-9) 
N(N—1) 

N. N +N, i 

2; > Qu-x)» y 
两 个 簇 之 间 的 距离 : D, = | iiM (8-10) 

N,N: 





进行 数学 演算 之 后 得 到 的 能 直径 : D= NXS (8-11) 


SS, " SS; 2LSiLS; 
N. N: N N: 





两 簇 之 间 的 距离 D. (8-12) 





2. BIRCH 算法 的 基本 流程 


BIRCH 算法 的 工作 过 程 包括 以 下 两 个 阶段 。 

阶段 一 : BIRCH 扫描 数据 库 ,建立 一 个 初始 存放 于 内 存 的 CF 树 , 它 可 以 被 看 作为 数据 
的 多 层 压 缩 ,并 试图 保留 数据 内 在 的 聚 类 结构 。 随 着 对 象 的 插入 ,CF 树 被 动态 地 构造 ,不 
要 求 所 有 的 数据 读 人 内 存 ,可 以 在 外 存 上 逐个 读 和 人 数据 项 。 因 此 ,BIRCH 方法 对 增 量 或 动 
态 聚 类 也 非常 有 效 。 

阶段 二 : BIRCH 采用 某 个 聚 类 算法 对 CF 树 的 叶 节点 进行 聚 类 。 在 这 个 阶段 可 以 执行 
任何 聚 类 算法 ,如 典型 的 划分 方法 。 

BIRCH 算法 的 伪 代 码 如 下 所 示 。 


输入 :数据 集 x... x; MB 了 
输出 :m 4" e 
执行 : 
for(i-1;i&n;iit*)( 
将 总 插入 与 其 最 近 的 一 个 叶子 节点 中 * 
if 插入 后 的 簇 小 于 或 等 于 阅 值 
将 总 插入 到 该 叶子 节点 ,并 且 重 新 调整 从 根 到 此 叶子 路 径 上 的 所 有 元 组 ” 
else if 插 入 后 节点 中 有 剩余 空间 
把 区 作为 一 个 单独 的 簇 超 乳 并 重新 调整 从 根 到 此 叶子 路 径 上 的 所 有 三 元 组 ; 
else 分 裂 该 节点 并 调整 从 根 到 此 叶 节点 路 径 上 的 三 元 组 ;} 


3. BIRCH 算法 的 实例 


例 8.5 使 用 BIRCH 算法 进行 聚 类 。 
使 用 BIRCH 算法 构建 CF 树 的 过 程 如 图 8-15 所 示 。 如 有 一 个 MinCluster 中 包含 3 个 
数据 点 (1,2,3),(4,5,6),(7,8,9), 则 ， 
N=3 
LS = (1 十 4 十 7,2 十 5 十 8,3 十 6 十 9) = (12,15,18) 
SS = (1 十 16 十 49,4 十 25 十 64,9 十 36 十 81) 一 (66,93,126) 
O 算法 起 初 ,扫描 数据 库 , 拿 到 第 一 个 data point instanceC1.2.3) ,创建 一 个 空 的 leaf 
和 MinCluster, 把 点 (1,2,3) 的 id 值 放 入 MinCluster, 更 新 MinCluster 的 CF 值 为 (1,(1,2， 
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Root CF 
Nonleaf CF CF CF 
Jl 2 B 
Leaf CF CF CF 
MinCluster CF CF CF CF 
图 8-15 构造 CF hi 


3),(1,4,9)) ,把 MinCluster 作为 Leaf 的 一 个 孩子 ,更 新 Leaf 的 CF 值 为 (1,(1,2,3),(1， 
4,9))。 实 际 上 只 要 向 树 中 放 入 一 个 CF( 这 里 用 CF 作为 Nonleaf, Leaf, MinCluster 的 统 
TIO ,就 要 更 新 从 Root 到 该 叶子 节点 的 路 径 上 的 所 有 节点 的 CF 值 。 

O 当 又 有 一 个 数据 点 要 插入 树 中 时 ,把 这 个 点 封装 为 一 个 MinCluster( 这 样 它 就 有 了 
一 个 CF 值 ), 新 到 的 数据 点 即 CF_new, 得 到 树 的 根 节点 的 各 个 孩子 节点 的 CF 值 , 根 据 D, 
找到 CF. new 与 哪个 节点 最 近 , 就 把 CF_new 加 入 哪个 子 树 。 这 是 一 个 递归 的 过 程 。 递 归 
的 终止 点 是 要 把 CF_new 加 入 一 个 MinCluster 中 ,如 果 加 入 之 后 MinCluster 的 直径 没有 超 
过 了 工 , 则 直接 加 入 ,否则 将 CF. new 单独 作为 一 个 簇 ,成 为 MinCluster 的 兄弟 节点 。 加 入 之 
后 需要 更 新 该 节点 及 其 所 有 祖先 节点 的 CF 值 。 

C) 插入 新 节点 后 ,可 能 有 些 节点 的 孩子 数 大 于 B OX LO ,此 时 该 节点 要 分 裂 。 对 于 
Leaf, 它 现在 有 工 十 1 个 MinCluster, 要 新 创建 一 个 Leaf, 使 它 作 为 原 Leaf 的 兄弟 节点 ,同时 
需要 注意 ,每 新 创建 一 个 Leaf 都 要 把 它 插入 双向 链表 中 。 工 十 1 个 MinCluster 要 分 到 这 两 
个 Leaf 中 时 , 找 出 这 工 十 1 个 MinCluster 中 距离 最 远 的 两 个 Cluster, #J F ñ Cluster 离 哪 
个 近 就 和 哪个 站 在 一 起 。 分 好 后 更 新 两 个 Leaf 的 CF 值 ,其 祖先 节点 的 CF 值 没 有 变化 ,不 
需要 更 新 。 这 可 能 导致 祖先 节点 的 递归 分 裂 , 因 为 Leaf 分 裂 后 恰好 其 父 节 点 的 孩子 数 超过 
T B, Nonleaf 的 分 裂 方法 与 Leaf 的 相似 ,只 不 过 产生 新 的 Nonleaf 后 不 需要 把 它 放 人 一 
个 双向 链表 中 。 如 果 是 树 的 根 节点 需要 分 裂 , 则 树 的 高 度 加 1. 


8.3.6 使 用 Weka 进行 基于 层次 的 聚 类 实例 


Weka 系统 提供 了 一 个 名 为 Hierarchical Clusterer 的 函数 ,选取 Weka 中 的 默认 数据 集 
iris. arff ,将 数据 集聚 集 为 Iris-setosa ,Iris-versicolor 和 Iris-virginica, 实 现 了 基于 层次 的 聚 
类 算法 。 下 面 借助 Weka 演示 Hierarchical Clusterer 算法 对 iris 数据 集 进 行 聚 类 的 操作 步 
又 与 聚 类 结果 。 具 体 步 骤 如 下 。 

CD 打开 Weka 软件 ,弹出 Weka 用 户 界面 页 ,如 图 8-16 所 示 。 

© 在 图 8-16 中 . 单 击 Explorer 按钮 .进入 Weka 主页 面 ,如 图 8-17 所 示 。 

C 在 图 8-17 中 , 单 击 Open file.… 按 钮 ,选择 iris. arff 文件 ,引入 数据 集 , 如 图 8-18 
所 示 。 
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图 8-16 Weka 图 形 用 户 界 面 选择 器 


在 图 8-18 中 ,Current relation 描述 了 当前 的 关系 ,其 中 ,Relation:iris 说 明 此 文件 是 有 
AS FÉ RUDI HR. Instances: 150 说 明 此 文件 中 有 150 个 实例 ,Attributes:5 表明 有 5 个 属 
性 ,Sum of weights 表明 权重 和 为 150。Attributes 栏 显 示 了 文件 中 的 各 个 属性 ,分 别 为 
sepallength GÀ Jr KFE) ,sepalwidth( 苯 片 宽度 ) , petallength C4E3EH& BE) , petalwidth CE JE 9 
E) class È FÉ fit] (8258 90), Hor „class 分 别 为 Tris-setosa  Iris-versicolor 和 Iris-virginica。 

(D 单 击 Edit... 按 钮 ,弹出 Viewer 对 话 框 , 即 可 对 文件 进行 编辑 ,如 图 8-19 所 示 。 以 第 
1 行为 例 , 由 图 8-19 可 知 ,编号 为 1,sepallength 为 5. 1. sepalwidth 为 3. 5,petallength 为 1. 
4,petalwidth 为 0.2,class 为 Iris-setosa。 





© Weka Explorer 一 口 x 





图 8-17 Weka 主页 面 


在 图 8-19 中 , 单 击 Add instance 按钮 , 即 可 添加 实例 ; 单 击 Undo 按钮 , 即 可 撤销 操作 ; 
保存 可 单 击 OK 按钮 ,取消 可 单 击 Cancel 按钮 。 
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图 8-19 数据 集 编辑 器 对 话 框 


© 在 图 8-17 中 , 单 击 Cluster 按钮 ,在 Cluster 栏 中 单 击 Choose 按钮 ,选择 
HierarchicalClusterer, 如 图 8-20 所 示 。 

@ 在 图 8-20 中 ,选择 HierarchicalClusterer 后 的 页 面 如 图 8-21 所 示 。 

C) 在 图 8-21 中 , 单 击 Cluster 栏目 下 Choose 按钮 后 的 HierachicalClusterer 文本 框 , 弹 
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图 8-21 选择 HierarchicalClusterer 后 的 页 面 


出 对 话 框 后 可 以 通过 调整 numClusters 的 值 确定 聚 类 的 数量 ,这 里 选择 的 是 3 个 ,设置 好 参 
数 后 , 单 击 Save... 按 钮 即 可 保存 修改 , 单 击 Cancel 按钮 即 可 撤销 修改 , 单 击 OK 按钮 即 可 完 
成 修改 ,如 图 8-22 所 示 。 
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图 8-22 HierarchicalClusterer 参数 列表 


(& 在 图 8-22 中 , 单 击 Start 按钮 即 可 运行 聚 类 。Hierarchical Clusterer 算法 的 结果 如 
图 8-23 所 示 ,在 Clusterer output 输出 栏目 中 可 以 看 到 输出 聚 类 后 的 结果 , 聚 类 分 成 了 
3 类 : 第 1 类 用 0 标记 ,有 50 个 数据 , 占 全 部 数据 的 33%% ;第 2 类 用 1 标记 ,有 50 个 数据 , 占 
全 部 数据 的 33% ;第 3 类 用 2 标记 ,有 50 个 数据 , 占 全 部 数据 的 33% 。 


calClusterer -N 3-L SINGLE -P -A "weka.core EuclideanDistance -R frstlasf 


Cluste: 
{OCC LO:0.07344, (((1.0:0.06508,1.0:0.06508) :0| 


Cluster 2 
((((((((((((((2.0:0.08983, (2.0:0.06047,2.0:0.06047) :0.0293| 


Time taken to build model (full training data) : 0.06 seco 
=== Model and evaluation on training set === 
Clustered Instances 

SO ( 33%) 


° 
1 50 ( 33%) 
2 SO ( 333) 





图 8-23 运行 结果 


8.4 基于 密度 的 聚 类 


8.4.1 基于 密度 的 聚 类 的 基本 概念 


日 于 基于 划分 的 聚 类 算法 与 基于 层次 的 聚 类 算法 往往 只 能 发 现 凸 型 的 聚 类 得 ,对 于 其 
他 类 型 的 聚 类 簇 的 效果 并 不 理想 。 为 了 更 好 地 发 现 各 种 形状 的 聚 类 簇 ,人 们 提出 了 基于 密 
度 的 聚 类 算法 。 基 于 密度 的 聚 类 算法 以 数据 集 在 空间 中 分 布 的 稠密 程度 为 依据 进行 聚 类 ， 
并 不 需要 预先 设 定 艇 的 数量 ,因此 适合 对 未 知 内 容 的 数据 集 进 行 聚 类 。 

常见 的 基于 密度 的 聚 类 算法 有 DBSCAN, OPTICS, DENCLUE 等 。 本 节 主 要 介绍 
DBSCAN 算法 。 相 关 概 念 如 下 所 示 。 

SPER: 对 象 的 e 邻 域 是 以 该 对 象 为 中 心 .e 为 半径 的 空间 。 

核心 对 象 : 用 户 指定 一 个 参数 MinPis ,指定 稠密 区 域 的 密度 阔 值 。 如 果 一 个 e 邻 域 至 
少 包含 MinPts 个 对 象 , 则 称 该 对 象 为 核心 对 象 。 

直接 密度 可 达 : 对 于 指定 的 对 象 集合 ,有 对 象 p 与 g ,如果 对 象 p 在 对 象 g 的 邻 域内 ， 
Jf H. q 是 核心 对 象 , 则 称 对 象 p 是 从 对 象 g 直接 密度 可 达 的 。 

密度 可 达 : 假设 有 对 象 链 pi ,ps,…,p, 且 pi 二 gq,p, 二 p。 如 果 对 于 pAn), A 
Pin EM p XT e M MinPts 直接 密度 可 达 的 , 则 称 p 是 从 对 象 gq 关于 se 和 MinPts 密度 可 
达 的 。 

密度 相连 : 对 于 指定 的 对 象 集合 工 ,如 果 存 在 一 个 对 象 0, 使 对 象 p 和 对 象 AO 关于 
e 和 MinPts 密度 可 达 ,那么 对 象 p HOS Sq 是 关于 e 和 MinPts 密度 相连 的 。 

噪声 : 对 于 对 象 p, 如 果 它 的 e 邻 域内 包含 的 对 象 少 于 MinPts 个 , 则 称 对 象 为 品 


声 点 。 

















8.4.2 DBSCAN 算法 
1. DBSCAN 算法 的 基本 思想 


DBSCAN 算法 根据 以 上 概念 在 数据 对 象 集中 查找 徐 和 噪声 ,这 里 的 簇 指 对 象 集中 的 簇 
核心 对 象 密度 可 达 的 所 有 对 象 的 集合 。 该 算法 的 基本 思想 是 每 个 类 的 内 部 点 的 密度 比 类 的 
外 部 点 的 密度 要 高 得 多 。 它 定义 类 为 “密度 相连 ?的 最 大 对 象 集 , 不 包含 在 任何 类 中 的 对 象 
被 认为 是 “噪声 "。DBSCAN 算法 能 够 识别 各 种 复杂 形状 的 聚 类 ,能 有 效 排除 噪声 的 干扰 ， 
并 且 聚 类 结果 不 受 输入 顺序 的 影响 。 


2. DBSCAN 算法 的 基本 流程 


DBSCAN 发 现 簇 的 过 程 如 下 。 

CD 初始 给 定数 据 集 D 中 所 有 对 象 被 标记 为 unvisited ,DBSCAN 随机 选择 一 个 未 访问 
的 对 象 p ,标记 p H visited ,并 检查 p 的 e- 邻 域 是 否 至 少 包含 MinPts 个 对 象 。 如 果 不 是 ， 
则 p 被 标记 为 噪声 点 ,否则 为 p 创建 一 个 新 的 簇 C JP BL p 的 e- 邻 域 中 所 有 对 象 都 放 在 候 
选集 合 N 中 。DBSCAN 迭代 地 把 N 中 不 属于 其 他 簇 的 对 象 添 加 到 C 中 。 在 此 过 程 中 ,对 
应 N 中 标记 为 unvisited 的 对 象 b. ,DBSCAN 把 它 标记 为 visited ,并 且 检 查 它 的 ee 邻 域 ,如 
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AE p 的 e 邻 域 至 少 包含 MinPts 个 对 象 , 则 p 的 e- 邻 域 中 的 对 象 都 被 添加 到 NN 中 。 
DBSCAN 继续 添加 对 象 到 C, 直 到 C 不 能 扩展 , 即 直到 N Jy zs. He f C 完成 生成 ,输出 
即 可 。 

© 为 了 找到 下 一 个 簇 ,DBSCAN 从 剩余 的 对 象 中 随机 选择 一 个 未 访问 过 的 对 象 。 聚 
类 过 程 继续 ,直到 所 有 对 象 都 被 访问 。 

DBSCAN 算法 的 伪 代 码 如 下 所 示 。 


输入 : 
D: 一 个 包含 n 个 对 象 的 数据 集 
se: 半径 参数 
MinPts:^ B 85 BE Fi (E 
输出 :基于 密度 的 簇 的 集合 
执行 : 
标记 所 有 对 象 为 unvisited; 
do 
随机 选择 一 个 unvisited 对 象 p; 
标记 pH visited; 
if ph c- 49 7 ff MinPts 个 对 象 
UTN HW p 添 加 到 c; 
4 NW 为 p 的 e- 邻 域 中 的 对 象 的 集合 
for W 中 每 个 点 pp 
if p 是 unvisited 
标记 pp 为 visited; 
ifD 的 e- 邻 域 至 少 有 MinPts 个 点 ,把 这 些 点 添加 到 N; 
ifp 还 不 是 任何 禾 的 成 员 , 把 p 添 加 到 c; 
end for 
输出 c; 
else 标 记 p 为 噪声 ;> 
until 没有 标记 为 unvisited 的 对 象 ; 


3. DBSCAN 算法 的 实例 


例 8.6 使 用 DBSCAN 算法 进行 聚 类 。 

设 有 数据 集 ,具体 对 象 分 布 如 图 8-24 所 示 , 对 其 实施 DBSCAN 算法 的 步骤 如 下 ( 设 
e=1,MinPts=4), 

这 里 对 图 8-24 中 的 对 象 按 从 左 向 右 、 从 上 向 下 的 顺序 进行 编号 。 

CD 选择 点 6, 以 它 为 圆心 、 半 径 为 1 的 圆 内 包含 2 个 点 ,不 满足 不 小 于 MinPts WER, 
因此 它 不 是 核心 点 ,如 图 8-25 所 示 。 

O 选择 点 2, 按 照 @ 的 分 析 , 可 知 其 不 是 核心 点 。 

© 选择 点 1, 按 照 @ 的 分 析 , 可 知 其 不 是 核心 点 。 

CD 选择 点 5, 以 它 为 圆心 .半径 为 1 的 圆 内 包含 5( 大 于 MinPts 一 4 个 点 ,所 以 可 知 其 为 
核心 点 。 对 于 其 e 邻 域内 的 点 4, 以 点 4 为 圆心 1 为 半径 的 圆 有 4( 等 于 MinPis) 个 ,所 以 点 
4 也 是 核心 点 。 这 样 就 可 以 得 到 一 个 簇 Ci 二 {1,2,3,4,5,6,7} ,如 图 8-26 所 示 。 
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图 8-24 











5- 邻 域 


图 8-25 点 6 的 











© 选择 点 10, 以 该 点 为 圆心 、1 为 半径 的 圆 内 有 5 个 点 ,可 知 其 是 核心 点 。 由 DBSCAN 


@ 选择 点 8, 可 知 其 不 是 核心 点 。 
算法 可 以 得 到 新 簇 C; 


示 。 


(8.9,10,11,12) ,如 图 8-27 所 


这 样 就 将 原 数据 集 了 划分 为 了 两 类 ,如 图 8-28 所 示 。 
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图 8-28 ”使 用 DBSCAN 算法 得 到 的 分 类 


8.4.3 使 用 Weka 进行 基于 密度 的 聚 类 实例 


Weka 系统 提供 了 一 个 名 为 MakeDensityBasedClusterer 的 函数 ,选取 Weka 中 的 默认 
数据 集 weather. numeric. arff ,将 数据 集聚 集 为 sunny、overcast 和 rainy, 实 现 了 基于 密度 的 
聚 类 算法 。 下 面 借 助 Weka 演示 MakeDensityBasedClusterer 算法 对 weather 数据 集 进行 
聚 类 的 操作 步骤 与 聚 类 结果 。 具 体 步 又 如 下 。 

CD 打开 Weka 软件 ,弹出 Weka 用 户 界面 页 ,如 图 8-29 所 示 。 





Q weka GUI chooser = 0 X 
Program Visualization Tools Help 

















图 8-29 Weka 图 形 用 户 界 面 选 择 器 
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© 在 图 8-29 中 , 单 击 Explorer 按钮 ,进入 Weka 主页 面 ,如 图 8-30 所 示 。 








8-30 Weka 主页 面 


© 在 图 8-30 中 , 单 击 Open file... 按 钮 ,选择 weather. numeric. arff 文件 ,引入 数据 集 ， 
如 图 8-31 所 示 。 





图 8-31 打开 weather 数据 文件 


238. — dig Mos 3345348 


在 图 8-31 中 ,Current relation 描述 了 当前 的 关系 .其 中 ,Relation: weather 说 明 此 文件 
是 有 关 天 气 的 描述 ,Instances:14 说 明 此 文件 中 有 14 个 实例 ,Attributes:5 表明 有 5 个 属 
性 ,Sum of weights:14 表明 权重 和 为 14。Attributes 
栏 显 示 了 文件 中 的 各 个 属性 ,分 别 为 outlook (天 
Æ), temperature (温度 ) humidity (湿度 ) 、windy 





(有 风 ) .play( 是 否 适合 旅游 ,其 中 ,outlook 取 值 为 |? sem o mom 
sunny,rainy 或 overcast, windy 取 值 为 FALSE 或 ; 95 Fuse 
TRUE. play 取 值 为 no 或 yes。 D — Tn TRUE 
CD 单 击 Edit... 按 钮 ,弹出 Viewer 对 话 框 , 即 可 Ta mE 

对 文件 进行 编辑 ,如 图 8-32 所 示 。 以 第 1 行为 例 ， "MEE ns 
由 图 8-32 可 知 ,编号 为 1,outlook 取 值 为 sunny, (2 Ed mE 
K 910 TRUE 


temperature 取 值 为 85. 0. humidity 取 值 为 85. 0. 
windy 取 值 为 FALSE,play 取 值 为 no。 

在 图 8-32 中 , 单 击 Add instance 按钮 即 可 添加 图 8-32 ”数据 集 编辑 器 对 话 框 
实例 ; 单 击 Undo 按钮 , 即 可 撤销 操作 ;保存 可 单 击 
OK 按钮 ,取消 可 单 击 Cancel 按钮 。 

© 在 图 8-31 中 , 单 击 Cluster 按钮 ,在 Cluster 栏 中 单 击 Choose 按钮 ,选择 
MakeDensityBasedCluster 函数 ,如 图 8-33 所 示 o 











weka clusterers SimpleKMeans -- -init 0 -max-candidates 100. -pariodie-pruning 








图 8-33 MakeDensityBasedCluster 算法 选择 


@ 在 图 8-33 中 ,选择 MakeDensityBasedCluster 后 的 页 面 如 图 8-34 所 示 。 
CD 在 图 8-34 中 , 单 击 Cluster 栏目 下 Choose 按钮 后 的 MakeDensityBasedCluster 文本 
框 ,如 图 8-35 所 示 。 





terer -M 1 0E-6 -W weka clusterers.SimpleKMeans -- -init 0 -max-candidates 100 -periodic-pruni d 


> m 

— M 

一 一 二 一 一 

mE 
"— 





图 8-34 MakeDensityBasedCluster 算法 选择 后 的 页 面 


Class for wrapping a Clustererto make it retum a distribution | More ] 


and density. — 


| Choose | Simple -init 0 -maxcandidates 100 -per| 





图 8-35 MakeDensityBasedClusterer 参数 列表 


(& 在 图 8-35 中 , 单 击 clusterer 后 的 SimpleKMeans 文本 框 ,如 图 8-36 所 示 。 

在 图 8-36 中 ,可 以 通过 调整 numClusters 的 值 确定 聚 类 的 数量 ,这 里 选择 的 是 3 个 , 设 
置 好 参数 后 , 单 击 Save... 按 钮 即 可 保存 修改 , 单 击 Cancel 按钮 即 可 撤销 修改 , 单 击 OK 按钮 
即 可 完成 修改 ,如 图 8-37 所 示 。 

在 图 8-37 中 , 单 击 Save... 按 钮 即 可 保存 修改 , 单 击 Cancel 按钮 即 可 撤销 修改 , 单 击 OK 
按钮 即 可 完成 修改 。 

加 在 图 8-34 中 , 单 击 Start 按钮 , 即 可 运行 聚 类 。MakeDensityBasedClusterer 算法 的 
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图 8-36 SimpleKMeans 聚 类 图 





© weka.gui. GenericObjectEdi 


Class for wrapping a Clusterer to make it return a distribution 


and density. 





图 8-37 设置 聚 类 后 簇 的 数量 
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结果 如 图 8-38 所 示 , 在 Cluster output 输出 栏目 中 可 以 看 到 输出 聚 类 后 的 结果 , 聚 类 分 成 了 
3 类 : 第 1 类 用 0 标记 ,有 6 个 数据 , 占 全 部 数据 的 43%; 第 2 类 用 1 标记 ,有 3 个 数据 , 占 全 
部 数据 的 21% ;第 3 类 用 2 标记 ,有 5 个 数据 , 占 全 部 数据 的 36% 。 





Discrete Estimator. Counts = 4 3 (Total = 7) 
Attribute: play 
Discrete Estimator. Counts = 1 6 (Total = 7) 


Time taken to build model (full training data) : 0 seconds| 


一 Model and evaluation on training set === 
Clustered Instances 
6 (430) 


3 (2 
5 (360) 


Log likelihood: -9.11462 





图 8-38 运行 结果 


8.5 基于 网 格 的 聚 类 


8.5.1 基于 网 格 的 聚 类 的 基本 概念 


基于 网 格 聚 类 的 基本 思想 是 将 每 个 属性 的 可 能 值 分 割 成 许多 相 邻 的 区 间 ,创建 网 格 单 
元 的 集合 (用 于 讨论 假设 属性 值 是 序数 的 ` 区 间 的 或 者 连续 的 ) 。 每 个 对 象 落 入 一 个 网 格 单 
元 ,网 格 单元 对 应 的 属性 区 间 包 含 该 对 象 的 值 。 这 种 方法 的 优点 是 它 的 处 理 速度 很 快 ,其 处 
理 时 间 独 立 于 数据 对 象 的 数目 ,只 与 量化 空间 中 每 一 维 的 单元 数目 有 关 。 


8.5.2 STING 算法 
1. STING 算法 的 基本 概念 


STING 是 一 种 基于 网 格 的 多 分 辩 率 聚 类 技术 , 它 将 空间 区 域 划分 为 矩形 单元 。 针 对 不 
同 级 别 的 分 辨 率 ,通常 存在 多 个 级 别 的 矩形 单元 ,这 些 单元 形成 了 一 个 层次 结构 : 高 层 的 每 
个 单元 被 划分 为 多 个 低 一 层 的 单元 。 关 于 每 个 网 格 单元 属性 的 统计 信息 (如 平均 值 .最 大 值 
和 最 小 值 ) 被 预先 计算 和 存储 ,这 些 统计 信息 用 于 回答 查询 。 

网 格 中 常用 的 参数 包括 Count( 网 格 中 的 对 象 数目 ) ,Mean( 网 格 中 所 有 值 的 平均 值 )， 
Stdev( 网 格 中 属性 值 的 标准 偏差 ), Min( 网 格 中 属性 值 的 最 小 值 ), Max( 网 格 中 属性 值 的 最 
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大 值 ) ,Distribution( 网 格 中 属性 值 符合 的 分 布 类 型 ,如 正 态 分 布 .均匀 分 布 .指数 分 布 或 者 
none( 分 布 类 型 未 知 ))。 


2. STING 算法 的 基本 流程 


STING 算法 的 基本 过 程 分 为 以 下 几 步 。 

CD 使 用 自 顶 向 下 的 方法 回答 空间 数据 的 查询 ,从 一 个 预先 选择 的 层次 开始 ,通常 包含 
少量 的 单元 为 当前 层 的 每 个 单元 计算 置信 区 间 。 

@ 不 相关 的 单元 不 再 考虑 。 

@ 检查 完 当 前 层 后 ,接着 检查 下 一 个 低层 次 。 

CD 重复 这 个 过 程 直到 达到 底层 。 

STING 算法 的 伪 代 码 如 下 所 示 。 


输入 : 
待 聚 类 数据 集 s 
输出 : 
聚 类 结果 
执行 : 
D 从 第 一 个 层次 开始 ; 
(2) 对 于 这 一 层次 的 每 个 单元 格 , 计 算 查 询 相 关 的 属性 值 ; 
(3) 从 计算 的 属性 值 及 其 约束 条 件 中 ,将 每 一 个 单元 格 标注 成 相关 或 者 不 相关 ; 
(4) 如 果 这 一 层 是 底层 
(5) 转 到 步骤 (10); 
(6) 否则 
(7) 执行 步骤 (9); 
(8) 由 层次 结构 转 到 下 一 层 依照 步骤 (2) 进 行 计算 ; 
(9) 查询 结果 满足 , 转 到 步骤 (11) ,否则 转 到 步骤 (8); 
(10) 恢复 数据 到 相关 的 单元 格 进一步 处 理 以 得 到 满意 的 结果 , 转 到 步骤 (8) ; 
(11) 停止 ; 


3. STING 算法 的 实例 


例 8.7 使 用 STING 算法 进行 聚 类 。 

图 8-39 给 出 了 一 个 包含 两 个 簇 的 二 维 数据 集 , 图 8-40、 图 8-41、 图 8-42 给 出 了 网 格 划 
分 参数 取 不 同 值 时 的 聚 类 结果 。 假 设 当 网 格 单元 中 至 少 包 含 一 个 数据 点 时 就 认为 它 是 一 个 
高 密度 网 格 单元 ,图 8-40、 图 8-41、 图 8-42 中 的 阴影 区 域 表 示 上 聚 类 算法 得 到 的 徐 。 从 3 张 图 
中 可 以 看 到 , 当 网 格 划分 参数 取 不 同 值 时 ,算法 得 到 的 聚 类 结果 相差 很 大 。 当 划分 参数 过 
大 时 ,网 格 单元 的 粒度 太 小 ,同一 个 簇 内 的 高 密度 网 格 单元 可 能 会 不 相连 ,导致 算法 生成 多 
个 小 的 簇 。 而 当 划 分 参数 过 小 时 ,网 格 单 元 粒度 太 大 ,所 有 的 高 密度 网 格 单元 都 连 在 一 起 ， 
导致 数据 中 存在 的 多 个 簇 产生 合并 。 网 格 划 分 参数 除 对 聚 类 结果 的 影响 很 大 以 外 ,对 聚 类 
算法 的 计算 复杂 度 也 有 很 大 影响 。 因 此 ,选取 合适 的 网 格 划 分 参数 对 基于 网 格 方法 的 聚 类 
算法 非常 重要 。 但 是 ,用 户 很 难 在 处 理 数据 前 找到 一 个 合适 的 划分 参数 值 。 而 且 ,即使 用 户 
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拥有 关于 数据 分 布 的 一 些 先 验 知识 ,这 个 参数 也 很 难 确 定 。 目 前 设置 有 效 划 分 参数 的 唯一 
方法 是 使 用 多 个 不 同 的 划分 参数 分 别 对 数据 进行 处 理 , 然 后 比较 处 理 结果 ,选取 结果 最 好 
的 。 一 个 可 行 的 方法 是 将 划分 参数 从 大 到 小 逐步 减 小 , 即 网 格 单元 粒度 从 小 到 大 逐步 增加 ， 
直到 获得 满意 的 聚 类 结果 。 





图 8-41 网 格 划 分 参数 过 大 时 的 聚 类 结果 图 8-42 ”网 格 划分 参数 过 小 时 的 聚 类 结果 


8.5.3 CLIQUE 算法 
1. CLIQUE 算法 的 基本 概念 


CLIQUE 算法 是 基于 网 格 的 空间 聚 类 算法 ,但 它 同时 非常 好 地 结合 了 基于 密度 的 聚 类 
算法 思想 ,因此 既 可 以 像 基于 密度 的 方法 那样 发 现任 意 形状 的 簇 ,又 可 以 像 基于 网 格 的 方法 
那样 处 理 较 大 的 多 维 数据 集 ,并 且 把 每 个 维 划分 成 不 重 琶 的 区 间 ,从 而 把 数据 对 象 的 整个 入 
入 空间 划分 成 单元 。CLIQUE 算法 使 用 一 个 密度 国 值 识别 稠密 单元 ,如 果 映 射 到 一 个 单元 
的 对 象 超过 该 密度 阔 值 , 则 认为 该 单元 是 稠密 的 。 

CLIQUE 算法 需要 两 个 参数 值 , 一 个 是 网 格 的 步 长 , 另 一 个 是 密度 装 值 。 网 格 步 长 决 
定 了 空间 的 划分 ,而 密度 阔 值 用 来 定义 密集 网 格 ,并 且 用 网 格 密度 表示 网 格 中 所 包含 的 空间 
对 象 的 数目 。 密 集 网 格 是 指 给 定 阅 值 c, 当 网 格 g 的 密度 =c 时 ,网 格 g 是 密集 网 格 ,否则 是 
非 密集 网 格 。 网 格 密度 连通 区 域 是 指 设 Grids 为 一 个 网 格 集合 , 若 集合 中 的 所 有 网 格 相互 
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邻接 且 均 是 密集 网 格 , 则 称 Grid 是 网 格 密度 连通 区 域 。 
2. CLIQUE 算法 的 基本 流程 


CLIQUE 算法 的 聚 类 思想 如 下 所 示 。 

CD 算法 首先 扫描 所 有 网 格 , 当 发 现 第 一 个 密集 网 格 时 , 便 以 该 网 格 开始 扩展 ,扩展 原则 
是 若 一 个 网 格 与 已 知 密集 区 域内 的 网 格 邻 接 并 且 其 自身 也 是 密集 的 , 则 将 该 网 格 加 入 该 密 
集 区 域 中 ,直到 不 再 有 这 样 的 网 格 被 发 现 为 止 。 

© 算法 继续 扫描 网 格 并 重复 上 述 过 程 ,直至 所 有 网 格 被 遍历 。 

CLIQUE 算法 自动 发 现 最 高 维 的 子 空间 ,高 密度 聚 类 存在 于 这 些 子 空间 中 ,并且 它 对 
元 组 的 输入 顺序 不 敏感 ,无须 假 设 任何 规范 的 数据 分 布 , 它 随 输 入 数据 的 大 小 线性 地 扩展 ， 
当 数 据 的 维 数 增加 时 具有 良好 的 可 伸缩 性 。 

CLIQUE 算法 的 伪 代 码 如 下 所 示 。 


输入 : 
待 处 理 数据 集 ,密度 阅 值 
输出 : 


(1) 把 数据 空间 划分 若干 不 重 等 的 矩形 单元 ,并 计算 每 个 网 格 的 密度 ,根据 给 定 的 阔 值 ,识别 稠密 网 
格 和 非 稠密 网 格 , 且 置 所 有 网 格 初始 状态 为 "未 处 理 标记 "。 

(2) 遍历 所 有 网 格 ,判断 当前 网 格 是 否 有 "未 处 理 标 记 ", 若 没有 , 则 处 理 下 一 个 网 格 ,否则 进行 3)~ (7) 
处 理 ,直到 所 有 网 格 处 理 完 成 , 转 (8) 。 

(3) 改变 网 格 标记 为 "已 处 理 "。 若 是 非 密集 网 格 , 则 转 (2) 。 

(4) 若是 密集 网 格 , 则 将 其 赋予 新 的 徐 标 ,创建 一 个 队列 ,将 该 密集 网 络 置信 队列 。 

(5) 判断 队列 是 否 为 空 , 若 为 空 , 则 转 处 理 下 一 个 网 格 , 转 (2) ;否则 进行 如 下 处 理 。 
(5-1) 取出 队 头 的 网 格 元 素 ,检查 其 所 有 邻接 的 有 "未 处 理 标记 "的 网 格 ; 
(5-2) 更 改 网 格 标 记 为 "已 处 理 "; 
(5-3) 若 邻 接 网 格 为 密集 网 格 , 则 将 其 赋予 当前 簇 标记 ,并 将 其 加 入 队列 。 
(5-4) 转 (5) 。 

(6) 密度 连通 区 域 检查 结束 ,标记 相同 的 密集 网 格 组 成 密度 连通 区 域 , 即 目 标 簇 。 

(7) 修改 入 标 记 , 进 行 下 一 个 簇 的 查找 , 转 (2) 。 

(8) 遍历 整个 数据 表 , 将 数据 元 素 标记 为 所 在 网 格 复 标记 值 。 


3. CLIQUE 算法 的 实例 


例 8.8 使 用 CLIQUE 算法 进行 聚 类 。 

如 图 8-43. E] 8-44. 图 8-45 所 示 ,数据 空间 包括 3 个 维 : age salary 和 vacation。 例 如 ， 
子 空间 age 和 salary 中 的 一 个 二 维 单元 包含 m 个 点 , 仅 当 该 单元 在 每 个 维 上 的 投影 都 至 少 
BE m^ 5. 





vacation 


vacation 


I 
salary J zem Sl 
^4 





图 8-44 age 和 vacation 的 投影 图 图 8-45 三 者 的 投影 图 


8.6 聚 类 质量 的 评估 


1. 估计 聚 类 趋势 





聚 类 趋势 评估 确定 给 定 的 数据 集 是 否 有 可 以 导致 有 意义 的 聚 类 的 非 随 机 结构 ,并 且 聚 
类 要 求 数据 的 非 均匀 分 布 。 在 评估 数据 集 的 聚 类 趋势 时 ,可 以 评估 数据 集 被 均匀 分 布 产生 
的 概率 ,可 以 通过 空间 随机 人 性 的 统计 检验 实现 。 翟 普 金 斯 统计 量 作为 一 种 简单 但 有 效 的 统 


计量 ,可 以 解释 这 一 思想 。 


霍 普 金 斯 统计 量 是 一 种 空间 统计 量 ,用 于 检验 空间 分 布 的 变量 的 空间 随机 性 。 给 定数 
HE D, 通 过 霍 普 金 斯 统计 量 的 计算 可 以 求 出 该 数据 集 D 遵守 数据 空间 的 均匀 分 布 的 可 能 


性 。 霍 普 金 斯 统计 量 的 计算 步骤 如 下 所 示 。 


CD 均匀 地 从 D 的 空间 中 抽取 个 点 p1，,…,p,。 也 就 是 说 ,D 的 空间 中 的 每 个 点 都 以 
相同 的 概率 包含 在 这 个 样本 中 。 对 于 每 个 点 p CL , 找 出 p fE D 中 的 最 近邻 ,并 令 z, 


为 p E fE D 中 的 最 近邻 之 间 的 距离 , 即 c; mint(distC p; 30) (其 中 9€ D). 
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© 均匀 地 从 DD 中 抽取 nn 个 点 qi ,… ,gq,。 对 于 每 个 点 qi;(1i<n), 找 出 gq; 在 D 一 人 g;} 中 
的 最 近邻 ,并 令 y; 为 g; 在 D 一 {9;} 中 的 最 近邻 之 间 的 距离 , 即 y; 二 min{dist(g;,v)})( 其 中 v€E 
D.vqi). 

O 计算 霍 普 金 斯 统计 量 H Lax CGG-13 Br. 


H = -= (8-13) 


如 果 数据 集 D 是 均匀 的 , 则 >) MY yw 会 很 接近 ,因此 得 到 的 H KAH 0.5. 
而 ,如 果 D 是 高 度 倾斜 的 , 则 Y y: 会 显著 小 于 > x, 因此 吾 值 将 接近 于 0。 


2. 确定 复数 


确定 数据 集中 “正确 "的 簇 数 是 非常 重要 的 ,因为 合适 的 簇 数 可 以 控制 适当 的 聚 类 分 析 
粒度 ,这 可 以 看 作 在 聚 类 分 析 的 可 压缩 性 与 准确 性 之 间 寻 找 出 好 的 平衡 点 。 

简单 的 经 验方 法 是 ,对 于 ) 个 点 的 数据 集 ,设置 复数 户 大 约 为 Vz72。 在 期 望 情况 下 ,每 
MEKAH V27 个 点 。 

另外 一 种 方法 是 肘 方法 , 即 增加 复数 有 助 于 降低 每 个 复 的 簇 内 方差 之 和 。 这 是 因为 有 
更 多 的 簇 可 以 捕获 更 细 的 数据 对 象 簇 , 簇 中 对 象 之 间 更 为 相似 。 然 而 ,如 果 形 成 太 多 的 簇 ， 
则 降低 簇 内 方差 和 的 边缘 效应 可 能 下 降 , 因 为 把 一 个 凝聚 的 簇 分 裂 成 两 个 只 会 引起 簇 内 方 
差 和 的 稍微 降低 。 因 此 ,一 种 正确 选择 簇 数 的 启发 式 方法 是 使 用 簇 内 方差 和 关于 簇 数 曲线 
的 拐点 。 


3. 确定 聚 类 质量 


可 以 通过 计算 正确 率 、 召 回 率 和 下 值 作为 评价 指标 。 
正确 率 — 正确 识别 的 个 体 总 数 / 识别 出 的 个 体 总 数 
召回 率 — 正确 识别 的 个 体 总 数 / 测试 集中 存在 的 个 体 总 数 
下 值 = 正确 率 >x 召回 率 x 2/( 正 确 率 十 召回 率 ) 
下 面 通过 一 个 例子 阐述 上 述评 价 指标 。 
例 8.9 聚 类 评价 指标 的 计算 。 
某 池塘 有 1400 条 鲤鱼 .300 只 是 .300 只 营 。 现 在 以 捕捉 鲤鱼 为 目的 , 若 撤 网 后 捕捉 到 
700 条 鲤鱼 .200 只 虾 .100 FUSE ,那么 指标 分 别 如 下 。 
正确 率 = 700/(700 十 200 十 100) = 70% 
召回 率 = 700/1400 = 50% 
F (& = 70% X 50% X 2/(70% + 50%) = 58.3% 
dn f ub T rB f Br f t t iR EB JJ 5, Ml : 
正确 率 = 1400/ (1400 + 300 + 300) = 70% 
召回 率 = 1400/1400 = 100% 


F fü = 70% x 100% x 2/(70% + 100%) = 82. 35% 
由 此 可 见 , 正 确 率 是 评估 捕获 成 果 中 目标 成 果 所 占 得 的 比例 ;召回 率 是 召回 目标 类 别 的 
比例 ;F 值 是 综合 这 两 者 指标 的 评估 指标 ,用 于 综合 反映 整体 的 指标 。 


8.7 习题 


1. 什么 是 聚 类 ? 简单 描述 以 下 聚 类 方法 : 划分 方法 .层次 方法 .基于 模型 的 方法 ,并 为 
每 类 方法 给 出 例子 。 

2. 聚 类 被 广泛 地 认为 是 一 种 重要 的 数据 挖掘 方法 ,有 着 广泛 的 应 用 。 对 以 下 每 种 情况 
给 出 一 个 应 用 例子 。 

CD 采用 聚 类 作为 主要 的 数据 挖掘 方法 的 应 用 。 

(2) 采用 聚 类 作为 预 处 理工 具 ,为 其 他 数据 挖掘 任务 作 数据 准备 的 应 用 。 

3. 假设 在 一 个 给 定 的 区 域 分 配 一 些 自动 取款 机 以 满足 需求 。 住 宅 区 或 工作 区 可 以 被 
聚 类 ,以 便 每 个 簇 被 分 配 一 个 ATM。 但 是 ,这 个 聚 类 可 能 被 一 些 因素 所 约束 ,包括 可 能 影 
WW] ATM 可 达 性 的 桥梁 河流 和 公路 的 位 置 。 其 他 约束 可 能 包括 对 形成 一 个 区 域 的 每 个 地 
域 的 ATM 数目 的 限制 。 给 定 这 些 约束 ,如 何 修改 聚 类 算法 以 实现 基于 约束 的 聚 类 ? 

4. 总 SSE 是 每 个 属性 的 SSE 之 和 。 如 果 对 于 所 有 的 簇 , 某 变量 的 SSE 都 很 低 , 这 意味 
着 什么 ?如 果 只 对 一 个 簇 很 低 呢 ? 如 果 对 所 有 的 簇 都 很 高 呢 ? 如 果 仅 对 一 个 簇 很 高 呢 ? 如 
何 使 用 每 个 变量 的 SSE 信息 改进 聚 类 ? 

5. 传统 的 凝聚 层次 聚 类 过 程 每 步 合并 两 个 得 ,这 样 的 方法 能 够 正确 地 捕获 数据 点 集 的 
Cice no f hs Mg npo 如 果 不 能 ,请 解释 如 何 对 结果 进行 后 处 理 ,以 得 到 簇 结构 更 正确 的 
视图 。 
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离 群 点 检测 在 很 多 现实 环境 中 都 有 很 强 的 应 用 价值 ,如 网 络 入 侵 检 测 、 工 业 损毁 检测 、 
网 络 监视 异常 .医疗 处 理 和 欺诈 检测 等 。 本 章 从 离 群 点 概念 开始 ,主要 介绍 常用 的 离 群 点 检 
测 技术 。 首 先 介 绍 离 群 点 的 定义 与 分 类 ,其 余部 分 将 详细 介绍 常用 的 离 群 点 检测 方法 ,包括 
基于 近邻 的 、 基 于 统计 学 的 、 基 于 聚 类 的 以 及 基于 分 类 的 。 


9.1 离 群 点 的 定义 与 类 型 


9.1.1 离 群 点 的 定义 


离 群 点 (Outlier) 是 指 全 局 或 局 部 范围 内 偏离 一 般 水 平 的 观测 对 象 。 例 如 在 审查 信用 
卡 交易 记录 时 ,发现 某 条 记录 的 购物 地 点 和 购买 商品 的 种 类 数量 与 真正 的 卡 主 和 其 他 顾客 
有 很 大 不 同 , 这 种 交易 模式 的 显著 改变 值得 注意 ,很 有 可 能 发 生 了 信用 卡 被 盗 或 被 欺诈 的 现 
象 。 类 似 于 信用 卡 欺诈 检测 中 识别 显著 不 同 于 正常 情况 的 交易 , 离 群 点 检测 (或 称 为 异常 检 
测 ) 就 是 找 出 不 同 于 预期 对 象 行为 的 过 程 。 

离 群 点 的 本 质 仍然 是 数据 对 象 ,只 是 其 与 其 他 数据 对 象 有 显著 差别 ,又 被 称 为 异常 值 。 


假设 使 用 某 个 统计 过 程 产生 数据 对 象 集合 ,如 图 9-1 所 es 
示 , 大 部 分 对 象 都 大 致 符合 同一 种 数据 产生 机 制 ,然而 e * O 9v e) 
区 域 0 中 的 对 象 明显 不 同 ,不 太 可 能 与 大 部 分 数据 对 。 o ° e ° 
象 符合 同一 种 分 布 ,因此 在 该 数据 集中 ,0O 中 的 对 象 是 o š 56 ° 
离 群 点 。 ° 

离 群 点 与 噪声 数据 不 同 。 噪 声 是 指 被 观测 数据 的 c e* * 
随机 误差 或 方差 ,观测 值 是 真实 数据 与 噪声 的 县 加 。 e °° 


离 群 点 属于 观测 值 , 既 有 可 能 是 由 真实 数据 产生 的 ,也 — moa 区 域 O 中 的 对 象 为 离 群 点 
有 可 能 是 由 噪声 带 来 的 。 一 般 情况 下 ,噪声 并 不 是 异 
常 分 析 中 的 研究 对 象 。 如 在 对 某 公 司 员工 的 工资 进行 建 模 分 析 时 ,一 个 普通 员工 因为 突出 
贡献 而 赢得 额外 奖金 ,那么 该 员工 会 产生 某 些 类 似 于 “方差 ”或 “随机 误差 ”的 “噪声 ”, 但 这 种 
情况 不 该 被 看 作为 离 群 点 ,因为 该 员工 的 工资 为 合法 所 得 。 许 多 数据 分 析 和 数据 挖掘 任务 
在 离 群 点 检测 之 前 往往 需要 删除 噪声 。 

离 群 点 产生 的 原因 多 种 多 样 ,主要 原因 如 下 。 

D 由 于 计算 的 误差 或 者 操作 的 错误 所 致 。 例 如 , 某 人 年 龄 为 一 999 岁 明 显 是 由 于 误 操 
作 所 导致 的 离 群 点 。 
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© 由 于 数据 本 身 的 可 变性 或 弹性 所 致 。 例 如 ,一 家 公司 的 CEO 的 工资 肯定 明显 高 于 
其 他 普通 员工 的 工资 ,于 是 CEO 成 为 了 由 于 数据 本 身 可 变性 所 导致 的 离 群 点 。 

因此 ,在 离 群 点 检测 时 ,关键 是 要 找到 导致 离 群 点 产生 的 原因 。 通 常 做 法 是 在 正常 数据 
上 进行 各 种 假设 ,然后 证 明 检测 到 的 离 群 点 显著 违反 了 这 些 假 设 。 


9.1.2 离 群 点 类 型 
离 群 点 一 般 分 为 全 局 离 群 点 、 条 件 离 群 点 和 集体 离 群 点 。 
1. 全 局 离 群 点 


当 一 个 数据 对 象 明显 偏离 了 数据 集中 绝 大 多 数 的 对 象 时 ,该 数据 对 象 就 是 全 局 离 群 点 
(Global Outlier) 。 全 局 离 群 点 是 最 简单 的 一 类 离 群 点 ,大 部 分 离 群 点 检测 方法 都 针对 全 局 
离 群 点 实施 检测 。 再 次 考虑 图 9-1 中 区 域 O 中 的 点 ,它们 显著 偏离 数据 集 的 其 余部 分 ,因此 
属于 全 局 离 群 点 。 

全 局 离 群 点 的 检测 关键 在 于 根据 具体 的 应 用 环境 找到 一 个 合适 的 偏离 度量 。 度 量 选择 
不 同 , 检 测 方法 的 划分 也 不 同 ,不 同 的 检测 方法 将 在 后 续 小 节 中 讨论 。 全 局 离 群 点 检测 在 许 
多 应 用 中 都 很 重要 且 使 用 频繁 。 例 如 ,在 公司 账目 审计 过 程 中 ,不 遵守 常规 流程 或 不 符合 常 
规 交易 数目 的 记录 可 能 被 视 为 全 局 离 群 点 ,应 该 搁置 并 等 待 进 一 步 的 严格 审查 。 


2. 条 件 离 群 点 


与 全 局 离 群 点 不 同 , 当 且 仅 当 在 某 种 特定 情境 下 ,一 个 数据 对 象 显著 偏离 数据 集中 的 其 
他 对 象 时 ,该 数据 对 象 才 称 为 条 件 离 群 点 (Contextual Outlier) 。 如 今天 办 公 室 的 温度 是 
20 ,这 个 值 是 否 异 常 取决 于 时 间 和 地 点 。 如 果 是 天 津 的 春天 或 秋天 , 则 这 个 值 正常 的 ;如 
果 是 天 津 的 夏天 或 冬天 , 则 这 个 值 就 是 一 个 离 群 点 ;而 如 果 室 内 温度 靠 空调 调节 , 则 在 任何 
季节 都 能 算 作为 正常 值 。 

条 件 离 群 点 特别 依赖 于 选 定 的 情境 ,所 以 在 检测 过 程 中 ,条 件 必须 作为 问题 定义 的 一 部 
分 加 以 说 明 。 由 此 ,在 条 件 离 群 点 检测 中 ,数据 对 象 的 属性 被 划分 为 条 件 属性 和 行为 属性 。 
条 件 属性 是 指数 据 对 象 的 属性 中 定义 情境 的 属性 ;行为 属性 是 指数 据 对 象 属性 中 定义 对 象 
特征 的 属性 ,用 来 评估 对 象 关于 它 所 处 的 情境 是 否 是 离 群 点 。 上 述 温度 例子 中 ,条 件 属性 是 
时 间 和 地 点 ,行为 属性 是 温度 。 条 件 属性 的 意义 会 影响 条 件 离 群 点 检测 的 质量 ,因此 条 件 属 
性 作为 背景 知识 的 一 部 分 ,多 数 由 领域 专家 确定 。 事 实 上 ,在 许多 应 用 中 , 想 通过 足够 的 信 
息 收 集 或 确定 高 质量 的 条 件 属性 都 并 非 易 事 。 

局 部 离 群 点 (Local Outlier) 是 条 件 离 群 点 的 一 种 。 局 部 离 群 点 是 基于 密度 的 离 群 点 检 
测 方法 中 提 到 的 概念 。 如 果 数 据 集中 一 个 对 象 的 密度 显著 地 偏离 它 所 在 的 局 部 区 域 的 密 
度 , 则 该 对 象 就 是 一 个 局 部 离 群 点 。 

当 条 件 离 群 点 检测 的 条 件 属性 集 为 空 时 ,等 价 于 全 局 离 群 点 检测 ,也 就 是 说 ,全 局 离 群 
点 检测 使 用 了 整个 数据 集 作为 条 件 。 条 件 离 群 点 分 析 的 灵活 性 比较 强 ,使 用 户 能 在 不 同 的 
情境 下 考察 离 群 点 ,这 符合 各 种 应 用 中 具体 的 多 样 化 需求 。 如 在 信用 卡 欺诈 检测 中 ,也 可 以 
考虑 不 同情 境 下 的 离 群 点 。 某 位 顾客 使 用 了 信用 卡 额度 的 90% ,如 果 这 位 顾客 属于 具有 低 
信用 度 额度 的 顾客 群 , 则 这 种 行为 可 能 不 能 算 作 为 离 群 点 ;然而 如 果 该 顾客 属于 高 收入 人 群 


249. 


250 


EE 2-3 5 3 35 42 48 


并 且 余额 常常 超过 信用 额度 ,那么 这 种 行为 会 被 看 作为 离 群 点 。 这 种 离 群 点 会 带 来 商机 , 提 
高 此 类 顾客 的 信用 额度 也 许 会 带 来 新 的 收益 。 


3. 集体 离 群 点 


当 数据 集中 的 一 些 数 据 对 象 集体 显著 偏离 整个 数据 集 时 ,该 集合 形成 的 子 集 形成 集体 
离 群 点 (Collective Outlier) 。 集 体 离 群 点 中 的 个 体 数 据 
对 象 可 能 不 是 离 群 点 。 如 图 9-2 所 示 ,黑色 对 象形 成 的 O O O O O 
集合 是 一 个 集体 离 群 点 ,因为 它们 的 密度 远 远 高 于 数据 O OO OO 
集中 的 其 他 对 象 。 然 而 ,每 个 黑色 对 象 个 体 对 于 整个 数 
据 集 而 言 并 非 离 群 点。 ee OOO 

不 同 于 全 局 或 条 件 离 群 点 检测 ,在 集体 离 群 点 检测 Jg (3 G Q 
过 程 中 , 当 考 虑 个 体 数 据 对 象 的 行为 时 ,还 要 考虑 对 象 
集体 的 行为 。 所 以 ,检测 集体 离 群 点 需要 一 些 关于 对 象 Ó O O: O O 
之 间 联 系 的 背景 知识 ,如 对 象 之 间 的 距离 或 相似 性 测量 ”图 9-2 黑色 对 象形 成 集体 离 群 点 
Jrik. 

集体 离 群 点 检测 的 应 用 也 十 分 广泛 。 例 如 一 个 物流 管理 业务 ,如 果 一 个 订单 出 现 发 货 
延误 , 则 可 能 不 将 其 视 为 离 群 点 ， AA RTEA; 延误 经 常 发 生 不 足 为 怪 。 但 是 如 果 某 天 有 
100 个 订单 集体 延误 , 则 必须 引起 注意 。 这 100 个 订单 整体 形成 一 个 离 群 点 ,需要 整体 考察 
这 些 订单 , 找 出 发 货 延 迟 的 问题 所 在 。 再 如 ,两 个 当事人 之 间 的 股票 交易 是 正常 的 ,但 是 ,在 
短期 内 相同 股票 在 一 小 群 人 之 间 大 量 交 易 就 是 异常 的 ,可 以 将 其 视 为 集体 离 群 点 。 

以 上 每 种 类 型 的 离 群 点 都 有 可 能 在 同一 数据 集中 出 现 ,同时 ,一 个 数据 对 象 可 能 同属 于 
多 种 类 型 的 离 群 点 。 不 同 的 离 群 点 会 出 现在 不 同 的 具体 应 用 环境 中 ,出 于 不 同 的 目的 需要 
检测 不 同类 型 的 离 群 点 。 全 局 离 群 点 的 检测 手段 最 简单 ,条 件 离 群 点 的 检测 过 程 需 要 相关 
的 背景 知识 确定 情境 属性 ,集体 离 群 点 检测 需要 背景 信息 对 数据 对 象 之 间 的 联系 进行 建 模 ， 
以 便 找 出 离 群 点 的 群 组 。 


9.2 离 群 点 的 检测 


9.2.1 检测 方法 的 分 类 


离 群 点 的 检测 方法 有 很 多 ,每 种 方法 在 检测 时 都 会 对 正常 数据 对 象 或 离 群 点 作出 假设 ， 
从 这 个 假设 的 角度 考虑 . 离 群 点 检测 方法 可 以 分 为 基于 统计 学 的 离 群 点 检测 、 基 于 近邻 的 离 
群 点 检测 、 基 于 聚 类 的 离 群 点 检测 以 及 基于 分 类 的 离 群 点 检测 。 


1. 基于 统计 学 的 离 群 点 检测 


基于 统计 学 的 离 群 点 检测 的 思想 是 假设 正常 的 数据 对 象 都 可 以 由 一 个 统计 模型 产生 ， 
如 果 某 数据 对 象 不 符合 该 统计 模型 , 则 该 数据 对 象 是 离 群 点 。 在 样本 空间 中 ,假设 所 有 数据 
符合 某 个 分 布 或 者 数据 模型 ,然后 根据 模型 采用 不 和 谐 检验 识别 离 群 点 。 不 和 谐 检验 过 程 
中 需要 样本 空间 数据 集 的 参数 知识 ,包括 分 布 的 参数 知识 (如 期 望 和 方差 ) 以 及 期 望 的 离 群 
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点 数目 。 
2. 基于 近邻 的 离 群 点 检测 
基于 近邻 的 离 群 点 检测 的 思想 是 如 果 一 个 对 象 的 近邻 对 象 都 远离 它 ,那么 该 对 象 就 是 


其 他 对 象 与 各 自 最 近邻 对 象 的 近邻 性 时 ,假设 成 立 , 目 标 对 象 就 是 离 群 点 。 近 邻 性 可 以 解释 
为 距离 和 密度 ,因此 基于 近邻 的 离 群 点 检测 可 以 被 分 为 基于 距离 的 和 基于 密度 的 。 

基于 距离 的 离 群 点 检测 方法 是 在 样本 空间 中 使 用 对 象 之 间 的 距离 量化 对 象 之 间 的 近邻 
性 。 直 观 地 理解 ,远离 其 他 对 象 的 对 象 可 以 被 视 为 离 群 点 , 即 基于 距离 的 离 群 点 检测 指 设 
min dist 为 距离 阔 值 ,规定 对 象 之 间 的 距离 小 于 min. dist 时 满足 簇 的 形成 条 件 , 如 果 样 本 
空间 D 中 至 少 有 N 个 样本 点 与 对 象 O 的 距离 大 于 min_dist, 那 么 在 参数 是 {至 少 N 个 样本 
点 } 和 min. dist 的 情况 下 ,对 象 O 是 基于 距离 的 离 群 点 。 可 以 证 明 , 在 大 多 数 情况 下 ,如果 
对 象 O 是 根据 基于 统计 的 离 群 点 检测 方法 发 现 的 离 群 点 ,那么 肯定 存在 对 应 的 N 和 min_ 
dist, 使 它 也 成 为 基于 距离 的 离 群 点 。 

基于 密度 的 离 群 点 检测 方法 以 局 部 离 群 点 的 概念 为 基础 ,一 个 对 象 如 果 是 局 部 离 群 点 ， 
那么 相对 于 它 的 局 部 领域 ,尤其 是 关于 邻 域 密度 , 它 是 远离 的 。 不 同 于 前 面 的 方法 ,基于 密 
度 的 局 部 离 群 点 检测 不 将 离 群 点 看 作为 一 种 二 元 性 质 , 即 不 简单 地 用 “是 ”或 “ 否 ” 断 定 一 个 
对 象 是 否 是 离 群 点 ,而 是 用 一 个 权 值 量化 地 描述 它 的 离 群 程度 。 首 先 通过 数据 空间 的 所 有 
维度 计算 对 象 的 距离 ,进而 计算 对 象 的 可 达 密 度 , 最 后 为 每 一 个 数据 对 象 赋予 一 个 表征 离 群 
程度 量化 指标 。 权 值 的 计算 结果 依赖 于 数据 对 象 相对 于 其 领域 的 孤立 情况 ,反映 出 该 对 象 
是 否 分 布 在 数据 对 象 较为 集中 的 局 部 区 域 中 。 通 过 基于 密度 的 局 部 离 群 点 检测 就 能 在 样本 
空间 数据 分 布 不 均匀 的 情况 下 ,也 可 以 准确 地 发 现 离 群 点 。 


3. 基于 聚 类 的 局 部 离 群 点 检测 


基于 聚 类 的 局 部 离 群 点 检测 的 思想 是 假设 一 个 数据 对 象 是 正常 的 ,那么 该 对 象 属于 大 
的 稠密 的 篮 , 反 之 ,如 果 它 属于 相对 小 且 稀 朴 的 复 ,或 者 不 属于 任何 复 , 则 假设 不 成 立 , 即 该 
数据 对 象 是 离 群 点 。 更 严格 地 讲 , 如 果 该 对 象 与 其 最 近 簇 之 间 的 距离 也 相对 较 远 , 则 它 也 属 
于 离 群 点 。 


4. 基于 分 类 的 离 群 点 检测 


如 果 用 于 分 析 的 数据 样本 具有 领域 专家 提供 的 标记 ,能 够 区 分 数据 的 正常 性 和 异常 性 ， 
那么 可 以 不 必 作出 如 前 所 述 的 假设 。 基 于 分 类 的 离 群 点 检测 的 思想 是 依据 专业 数据 标记 并 
结合 分 类 方法 ,学 习 一 个 可 以 识别 离 群 点 的 分 类 器 ,不 属于 正常 类 别 的 数据 对 象 都 被 视 为 离 
群 点 。 该 过 程 所 需要 训练 的 数据 都 是 具有 类 标签 的 ,而 且 不 仅 包含 正常 的 数据 ,还 要 包含 离 
群 点 的 数据 ,这 样 才 可 以 对 数据 进行 分 类 。 


9.2.2 统计 学 方法 


基于 统计 学 的 方法 是 研究 最 多 的 ,早期 许多 关于 离 群 点 的 挖掘 都 是 利用 统计 学 的 方法 
实现 的 , 它 针 对 小 概率 事件 进行 分 析 鉴 别 , 其 主要 思想 是 利用 在 海量 数据 集中 多 数 的 数据 服 
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数据 分 析 与 数据 挖 氢 


从 一 定 的 模型 分 布 , 然 后 通过 不 一 致 检测 分 离 出 那些 严重 偏离 分 布 曲线 的 记录 作为 离 群 点 。 
这 类 离 群 挖掘 方法 多 数 是 从 针对 不 同 分 布 的 离 群 检测 方法 中 发 展 起 来 的 。 

该 方法 为 数据 集 构建 一 个 概率 统计 模型 (如 正 态 分 布 . 泊 松 分 布 、 二 项 式 分 布 等 ,其 中 的 
参数 由 数据 求 得 ) ,然后 根据 模型 采用 不 和 谐 检 验 识 别离 群 点 。 不 和 谐 检 验 过 程 中 需要 样本 
空间 数据 集 的 参数 知识 (如 假设 的 数据 分 布 )、 分 布 的 参数 知识 (如 期 望 和 方差 ) 以 及 期 望 的 
离 群 点 数目 。 图 9-3 给 出 了 基于 统计 分 布 的 检测 流程 。 


设 定数 据 集 的 
分 布 模型 





























不 和 谐 检验 





发 现 离 群 点 





























图 9-3 基于 统计 的 离 群 点 检测 流程 


1. 不 和 谐 检验 


不 和 谐 检验 需要 检查 两 个 假设 : 工作 假设 和 备 择 假设 。 工 作假 设 指 如 果 某 样 本 点 的 某 
个 统计 量 相对 于 数据 分 布 其 显著 性 概率 充分 小 , 则 认为 该 样本 点 是 不 和 谐 的 ,工作 假设 被 拒 
绝 ,此 时 备 择 假 设 被 采用 , 即 该 样本 点 来 自 另 一 个 分 布 模型 。 如 果 某 个 样本 点 不 符合 工作 假 
设 , 则 认为 它 是 离 群 点 。 如 果 它 符合 备 择 假设 , 则 认为 它 是 符合 某 一 备 择 假 设 分 布 的 离 
群 点 。 

工作 假设 H 为 假设 n 个 对 象 的 整个 数据 集 来 自 一 个 初始 的 分 布 模型 下 , 即 

HH:o; € F, 其 中 i = 1.2, .n 

不 和 谐 检验 就 是 检查 对 象 w 关 于 分 布下 是 否 显著 得 大 (或 小 ) 。 

例 9.1 基于 统计 方法 检测 年 龄 离 群 点 。 

设 儿童 上 学 的 具体 年 龄 总 体 服从 正 态 分 布 ,所 给 的 数据 集 是 某 地 区 随机 选取 的 开始 上 
学 的 20 名 儿童 的 年 龄 。 具 体 的 年 龄 特征 如 下 。 

E= (6,7,6,8.9.10,8,11,7,9,12,7,11,8.13,7,8,14,9,12), 

相应 的 统计 参数 如 下 : 均值 六 一 9. 1; 标 准 差 s=2.3, 

如 果 选 择 数 据 分 布 的 国 值 g 按 如 下 公式 计算 : q—m-- 2s. WI (CF RS ER AY ON 4.5 
和 13.7。 

如 果 将 工作 假设 描述 为 儿童 上 学 的 年 龄 分 布 在 阔 值 设 定 的 区 间 内 , 则 依据 不 和 谐 检验 ， 
不 符合 工作 假设 , 即 在 [4.5,13.7] 区 间 以 外 的 年 龄 数据 都 是 潜在 的 离 群 点 ,将 最 大 值 取 整 为 
13 ,所 以 年 龄 为 14 的 孩子 可 能 是 个 例外 。 而 且 由 均值 可 知 ,此 地 的 儿童 普遍 上 学 较 晚 ,教育 
部 门 可 据 此 进行 一 些 政策 上 的 改进 。 


2. 基于 统计 学 的 离 群 点 检测 的 优 缺 点 


基于 统计 学 的 离 群 点 检测 方法 建立 在 非常 标准 的 统计 学 原理 之 上 ,易于 理解 ,实现 起 来 
也 比较 方便 , 当 数据 充分 或 分 布 已 知 时 ,检验 十 分 有 效 。 但 是 它 也 存在 如 下 不 足 。 

CD 多 数 情况 下 ,数据 的 分 布 是 未 知 的 或 数据 几乎 不 可 能 用 标准 的 分 布 拟 合 ,虽然 可 以 
使 用 混合 分 布 对 数据 进行 建 模 , 基 于 这 种 模型 开发 功能 更 强 的 离 群 挖掘 方案 ,但 这 种 模型 更 
复杂 ,难以 理解 和 使 用 。 

© 当 观 察 到 的 分 布 不 能 恰当 地 用 任何 标准 的 分 布 建 模 时 ,基于 统计 方法 的 挖掘 便 不 能 
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确保 所 有 的 离 群 点 都 被 发 现 , 而 且 要 确定 哪 种 分 布 最 好 的 拟 合 数据 集 的 代价 也 非常 大 。 

© 即使 这 类 方法 在 低 维 (一 维 或 二 维 ) 时 的 数据 分 布 己 知 ,但 在 高 维 情况 下 ,估计 数据 
对 象 的 分 布 是 极其 困难 的 ,对 每 个 点 进行 分 布 测试 需要 花费 更 大 的 代价 。 

综 上 所 述 , 基 于 统计 学 的 离 群 点 检测 方法 主要 通过 令 当前 的 数据 集 含有 某 种 概率 分 布 
规则 ,并且 通过 某 种 数据 集 构建 其 特定 的 分 布 规律 ,再 利用 分 布 模型 的 不 和 谐 检验 特性 检测 
离 群 点 。 当 没有 特定 的 检验 时 ,或 观察 到 的 分 布 不 能 恰当 地 被 任何 标准 的 分 布 模拟 时 ,基于 
统计 学 的 检测 方法 就 不 能 确保 所 有 的 离 群 点 都 被 发 现 。 基 于 统计 学 的 检测 方法 只 适用 于 低 
维 数据 ,不 能 很 好 地 解决 多 维 数据 集 和 未 知 数据 集 的 分 布 规律 。 


9.2.3 近邻 性 方法 


在 样本 空间 中 ,可 以 使 用 对 象 之 间 的 距离 或 对 象 所 属 领域 的 密度 量化 对 象 之 间 的 近邻 
性 。 下 面 给 出 近邻 性 方法 的 假设 : 离 群 点 对 象 与 它 最 近邻 的 邻近 性 显著 偏离 数据 集中 其 他 
对 象 与 它们 近邻 之 间 的 邻近 性 。 

基于 距离 的 离 群 点 检测 与 基于 密度 的 离 群 点 检测 都 是 近邻 性 方法 。 


1. 基于 距离 的 离 群 点 检测 方法 


在 基于 距离 的 离 群 点 检测 方法 中 , 离 群 点 就 是 远离 大 部 分 对 象 的 点 , 即 与 数据 集中 的 大 
多 数 对 象 的 距离 都 大 于 某 个 闵 值 的 点 。 基 于 距离 的 检测 方法 考虑 的 是 对 象 给 定 半径 的 邻 
域 。 如 果 在 某 个 对 象 的 领域 内 没有 足够 的 其 他 的 点 , 则 称 此 对 象 为 离 群 点 。 基 于 距离 的 离 
群 点 算法 有 骨 套 -循环 算法 .基于 索引 的 算法 和 基于 单元 的 算法 。 下 面 主要 介绍 嵌 套 -循环 
算法 。 

对 于 对 象 集 也 ,指定 一 个 距离 阔 值 定义 对 象 的 合理 邻 域 。 设 对 象 vd,d ED, ZZ d H 
六 邻 域 中 的 其 他 对 象 的 个 数 ,如 果 D 中 的 大 多 数 对 象 远离 d, 则 视 d 为 一 个 离 群 点 。 令 
CGrZz00 REB E BË «a CO a D 29 y 3k I (EE. int TS d 满足 式 (9-1) ,那么 4 就 是 一 个 DB 
(da) 离 群 点 。 


(9-1) 





l (d' | dist(d d) & r3l <, 
I Di B 

其 中 ,dist(d,d’) 是 距离 度量 。 

同样 ,可 以 通过 检查 d 与 它 第 k 个 最 近邻 di 之 间 的 距离 确定 对 象 是 否 为 DB(d,a) 离 
群 点 ,其 中 ,k=[ al DI]. WẸ distid d) >r WIH d 是 离 群 点 ,因为 此 时 在 4 的 斑 邻 域 
内 ,除了 4d 之 外 ,对 象 少 于 个 。 

嵌 套 -循环 算法 是 一 种 计算 DB(d,a) 离 群 点 的 简单 方法 ,通过 检查 每 个 对 象 的 二 邻 域 。 
对 每 个 对 象 di Or mimo ,计算 其 与 其 他 对 象 之 间 的 距离 ,并 统计 ~ 邻 域内 的 对 象 的 个 数 。 
如 果 找 到 ax n 个 对 象 , 则 停止 此 对 象 的 计算 ,进行 下 一 个 对 象 的 计算 。 因 为 在 此 对 象 的 r 
邻 域内 的 对 象 不 少 于 a Xn 个 ,所 以 它 不 是 离 群 点 ,否则 其 是 离 群 点 。 

嵌 套 -循环 算法 计算 复杂 度 为 O(n?), 它 把 内 存 的 缓冲 空间 分 为 两 半 , 把 数据 集合 分 为 
若干 个 逻辑 块 , 通 过 选择 逻辑 块 装 入 每 个 缓冲 区 域 的 顺序 ,避免 了 索引 结构 的 构建 ,从 而 提 
高 了 效率 。 基 于 距离 的 方法 不 需要 用 户 拥有 任何 领域 的 知识 ,在 概念 上 更 加 直观 。 
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2. 基于 密度 的 离 群 点 检测 方法 


基于 密度 的 离 群 点 检测 方法 考虑 的 是 对 象 与 它 近邻 的 密度 ,如 果 一 个 对 象 的 密度 相对 
于 它 的 近邻 低 得 多 , 则 视 此 对 象 为 离 群 点 。 基 于 密度 的 离 群 点 检测 算法 的 效果 正在 不 断 地 
改进 ,逐渐 突破 了 密度 差异 大 等 条 件 的 限制 ,并 平衡 了 不 同 密度 的 聚 类 簇 对 数据 点 离 群 度 的 
影响 ,其 最 基础 的 算法 是 基于 局 部 离 群 因子 的 离 群 点 检测 算法 。 

局 部 离 群 因子 (Local Outlier Factor, LOF) 是 在 一 个 实际 检测 问题 的 基础 上 提出 的 。 
在 如 图 9-4 所 示 的 数据 集中 , 聚 类 簇 C, 属 于 低 密度 区 域 , 聚 类 簇 C; 属 于 高 密度 区 域 。 依 据 
传统 的 基于 密度 的 离 群 点 检测 算法 ,只 能 检测 出 数据 点 pi 是 离 群 点 ,而 Ci 中 的 任何 一 个 数 
据点 与 其 近邻 的 距离 均 大 于 数据 点 ps 与 其 在 Cs 中 的 近邻 的 距离 ,数据 点 ps 会 被 看 作为 正 
常 点 ,。 因 此 ,人 们 提出 了 基于 近邻 密度 差异 的 离 群 点 检测 算法 ,该 算法 考虑 的 是 利用 数据 
局 部 知识 ,而 非 全 局 知识 。 


se 





95. 


图 9-4 局 部 离 群 点 数据 集 


对 于 任何 给 定 的 数据 点 ,LOF 算法 计算 的 离 群 度 等 于 数据 点 p 的 & 近邻 集合 的 平均 局 
部 数据 密度 与 数据 点 自身 局 部 数据 密度 的 比值 。 为 了 计算 数据 点 的 局 部 数据 密度 ,首先 确 
定数 据点 包含 & 个 近邻 的 最 小 超 球 的 半径 ~, 然 后 利用 超 球 的 体积 除 以 近邻 数 & 得 到 数据 
点 的 局 部 数据 密度 。 正 常数 据点 位 于 高 密度 区 域 , 它 的 局 部 数据 密度 与 其 近邻 非常 相近 , 离 
群 度 接 近 1。 而 离 群 数据 位 于 相对 低 密度 区 域 , 它 的 局 部 数据 密度 比 其 近邻 平均 局 部 数据 
密度 要 小 , 离 群 度 大 于 1。 那么, 离 群 度 越 高 ( 越 大 于 1) 就 表示 数据 点 p 的 局 部 数据 密度 相 
比 其 近邻 平均 局 部 数据 密度 越 小 ,p 越 极 有 可 能 是 离 群 点 。 在 如 图 9-4 所 示 的 数据 集中 , 因 
H LOF 算法 通过 利用 局 部 数据 信息 考虑 了 C, 和 C; 数 据 密度 的 差异 性 ,因此 就 能 比较 好 地 
检测 出 离 群 数据 点 pi 和 po. 

数据 集中 的 数据 点 x 和 xz;,z 到 zi 的 可 达 距 离 reach_distr Gr ,zi) 的 定义 为 

reach. dist, (z,z,) = maxldist, Gr;) «dist (z,z,)) (9-2) 

其 中 ,disa(zi) 指 数据 点 z, E EC AP EAD RUE BI e dist Cc «c: d8 BG RR. oc 和 zx; 的 距 
离 。 通 常 ,距离 度量 选用 欧 几 里 得 距离 .而且 > 到 zx; 的 可 达 距 离 reach_distr Gc «2; 5j x; 
的 可 达 距 离 reach_dist, (xz;,z) 一 般 并 不 相同 。 
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已 知 可 达 距 离 的 定义 ,计算 数据 点 z 的 局 部 可 达 密 度 , 可 以 利用 其 到 自身 上 近邻 集合 的 
平均 可 达 距 离 作为 依据 ,将 该 平均 距离 求 倒数 作为 局 部 可 达 密 度 的 定量 表示 ,这 符合 基于 密 
度 的 离 群 点 的 假设 。 数 据点 z 的 局 部 可 达 密 度 rd , (zx) 定义 为 

k 
rdi (zx (9-3) 
"m š z reach. dist, Cx x) "e 


a, € KNNGO 


其 中 ,KNN(z) 指 数据 点 x 的 & 近邻 的 集合 。 
最 后 ,通过 数据 点 xz 的 & 近邻 可 达 数 据 密度 与 x 的 可 达 数 据 密度 的 比值 的 平均 值 作为 
数据 点 x 的 局 部 离 群 因子 , 即 








lrd, (zx;) 
2; € KNNGO Ird, Gr) 


LOF,G) — n 

LOF 算法 计算 的 离 群 度 不 在 便于 理解 的 范围 L0,1] 内 ,而 是 一 个 大 于 1 的 数值 ,并 且 没 
有 固定 的 范围 。 而 且 数 据 集 通常 数量 比较 大 ,内 部 结构 复杂 ,LOF 极 有 可 能 因为 取 到 的 近 
邻 点 属于 不 同 数据 密度 的 聚 类 簇 ,使 计算 数据 点 的 近邻 平均 数据 密度 产生 偏差 ,从 而 得 出 与 
实际 差别 较 大 甚至 相反 的 结果 。 

由 于 LOF 算法 思想 非常 简单 ,随后 产生 了 很 多 基于 该 算法 的 改进 。 有 的 算法 从 不 同 的 
思路 计算 数据 点 局 部 数据 密度 ,有 的 算法 针对 具体 的 应 用 对 其 作出 了 一 定 改 进 ,使 其 能 够 更 
好 地 处 理 复 杂 数 据 。 由 于 原始 LOF 算法 并 未 考虑 降低 时 间 复 杂 度 , 且 其 时 间 复 杂 度 为 O 
Gr) GO 为 数据 集 的 大 小 ) ,因此 ,有 的 算法 从 提高 LOF 算法 效率 的 角度 提出 了 改进 方法 。 


9.2.4 ”基于 聚 类 的 方法 


基于 聚 类 的 方法 的 主要 目的 是 产生 聚 类 簇 , 离 群 点 的 发 现 往往 是 作为 聚 类 分 析 的 副 产 
品 而 被 发 现 的 。 基 于 聚 类 的 方法 有 以 下 两 个 特点 。 
CD. 先 采 用 特殊 的 聚 类 算法 处 理 输入 数据 而 得 到 聚 类 ,再 在 聚 类 的 基础 上 检测 离 群 点 。 
O 只 需要 扫描 数据 集 若干 次 ,效率 较 高 ,适用 于 大 规模 数据 集 。 
基于 聚 类 的 离 群 点 检测 方法 共 分 为 两 个 阶段 : 第 一 阶段 对 数据 进行 聚 类 ,第 二 阶段 计 
算 对 象 或 复 的 离 群 因子 ,将 离 群 因子 大 的 对 象 或 稀疏 簇 中 的 对 象 判定 为 离 群 点 。 即 首先 聚 
类 所 有 对 象 ,然后 评估 对 象 属于 簇 的 程度 : 如 果 一 个 对 象 不 强 属于 任何 复 , 则 称 该 对 象 为 基 
于 上 聚 类 的 离 群 点 。 对 于 基于 原型 的 聚 类 ,可 以 用 对 象 到 其 簇 中 心 的 距离 度量 对 象 属于 簇 的 
程度 。 
EE C.C 的 摘要 信息 CSI(Cluster Summary Information) 定 义 为 
CSI = {n, Summary } (9-5) 
其 中 ,n 为 簇 C 的 大 小 ,Summary 由 分 类 属性 中 不 同 取 值 的 频 度 信息 和 数值 属性 的 质 
心 两 部 分 构成 , 即 
Summary = {< Stati,Cen >| Stat; = {(a,Freqcin(a)) | a € Di), 
lid. <S mc.Cen = (pn Pans Peut Psuuall 
假设 数据 集 DERRERS A k AICS {CC CG 8 p 的 离 群 因 子 
(Outlier Factor) OFL) E Xy p 5i Br # i [B] EB 85 BS DAOP E + 
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OF1(p)= — * d(p,C;) (9-6) 
m ID I 


其 中 ,d(p,C;) 表 示 对 象 p 与 第 j 个 簇 Cj 之 间 的 距离 ,后续 不 同 的 离 群 因 子 定义 符号 用 
OF 后 级 编号 加 以 区 分 。 
两 个 阶段 的 离 群 点 的 挖掘 方法 如 下 。 
CD 对 数据 集 D 采用 以 上 算法 进行 聚 类 ,得 到 聚 类 结果 C= {Ci ,Cs，… ,Ci)。 
O 计算 数据 集 D 中 所 有 对 象 p 的 离 群 因子 OF1(p) 及 其 平均 值 Ave OF 和 标准 差 
Dev. OF ,满足 条 件 
OF1(p) > Ave OF+BXDev OF (x gx 2) 
的 对 象 被 判定 为 离 群 点 。 通 常 取 B=1 或 1.285。 
例 9.2 基于 对 象 的 离 群 因子 法 。 
对 于 图 9-5 所 示 的 二 维 数据 集 , 比 较 点 p1(6,8) 和 ps(5,2), 哪 个 点 更 有 可 能 成 为 离 群 
点 ?假设 数据 集 经 过 聚 类 后 得 到 的 聚 类 结果 为 C= {Ci C2 C.) ,图 9-5 中 用 红色 圆圈 标注 ， 
三 个 簇 的 质心 分 别 为 C1(5.5,7.5)、Cs(5,2)、Cs(1.75,2.25), 试 计算 所 有 对 象 的 离 群 因子 。 
9 
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9-5 ”基于 聚 类 的 离 群 点 检测 二 维 数据 集 




















解 : 

根据 对 象 p 的 离 群 因 子 OF1(p) 的 定义 ,对 于 pi 点 有 : 

onioo- 22 fab -aossco- (6—1.75)* F (8— 2.25)! + 
ü (6 —5»* + (8 D+ (6 一 5 5)5 十 (8 一 7.5)5 = 5.9 

XF pA: 

orad elani (5—1.75)* -- (2— 2; 25)* + 
i 
E VO- FODA /G 5.5 T (2— 7.5 = 3.4 


可 见 , 点 pi 32 加 更 可 能 成 为 离 群 点 。 


$93 离 群 点 检测 


同 理 可 求 得 所 有 对 象 的 离 群 因子 ,结果 如 表 9-1 所 示 。 
X931 高 群 因子 表 
y OF3 
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进一步 求 得 所 有 点 的 离 群 因子 平均 值 Ave. OF —2. 95 ,标准 差 Dev_OF=1.3, 假 设 p= 
1, 则 阅 值 E==Ave_OF 十 BX Dev. OF—2.95--1. 3 二 4. 25, 离 群 因子 大 于 4.25 的 对 象 可 视 为 
离 群 点 ,pi 和 ps 都 是 离 群 点 ,但 相对 而 言 ,py 更 有 可 能 成 为 离 群 点 。 

离 群 因子 的 计算 方式 不 局 限于 上 述 定义 ,下 面 介 绍 一 种 基于 簇 的 离 群 因子 的 定义 方法 。 

CD 在 某 种 度量 下 ,相似 对 象 或 相同 类 型 的 对 象 会 聚集 在 一 起 ,或 者 说 正常 数据 与 离 群 
数据 会 聚集 在 不 同 的 簇 中 。 

@ 正常 数据 占 绝 大 部 分 , 且 离 群 数据 与 正常 数据 表现 出 明显 不 同 , 或 者 说 离 群 数据 会 
偏离 正常 数据 。 

给 定 簇 C,C 的 摘要 信息 CSI 重新 定义 为 

CSI = {kind .n.Cluster , Summary ) 

其 中 ,kind 为 徐 的 类 别 ( 取 值 normal s& outlier) sn= |C | HRE C 的 大 小 ,Cluster 238 C 
中 对 象 标 识 的 集合 ,Summary 由 分 类 属性 中 不 同 取 值 的 频 度 信息 和 数值 型 属性 的 质心 两 部 
分 构成 。 

假设 数据 集 D 被 聚 类 算法 划分 为 AS C — (01.02 CL) f C; 离 群 因 子 OF2(C,) 
定义 为 簇 C; 与 其 他 所 有 簇 间距 离 的 加 权 平 均值 

OF2(C,)= > IL - accep (9-7) 

din ARER JU" C b EC e oc , W e BH 122 e f e e IK EE e RC BE PE T BE. 
OFLC) BE ht T. C; 偏 离 整个 数据 集 的 程度 ,其 值 越 大 ,说 明 C; 偏 离 整 体 越 远 。 

基于 簇 的 离 群 因子 离 群 点 检测 算法 描述 如 下 。 

(D RŽ. 对 数据 集 D 进行 聚 类 ,得 到 聚 类 结果 C= {Ci ,Cs，… ,Ci})。 

O MERRI: 计算 每 个 复 C; (1 三 i 二) 的 离 群 因子 OF2(Ci) , 按 OF2(Ci) 递 减 的 顺 
序 重新 排列 C; C io , 求 满足 
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Fdo] FER b MES (Ci Co CQ) 标识 为 outlier 类 ( 即 每 个 对 象 均 看 作为 离 群 ), 而 将 
IC, i C,+ Ch PRIRA normal 类 ( 即 其 中 每 个 对 象 均 看 作为 正常 )。 
例 9.3 基于 簇 的 离 群 因子 法 。 
对 于 图 9-5 所 示 的 二 维 数据 集 , 聚 类 后 得 到 三 个 簇 C= (C, ,Cs CS) fI D 4 9L. Ci 
(5.5.7. 5) G; (5,2) G (1. 75,2. 25), 
按照 欧 几 里 德 距离 计算 篮 之 间 的 距离 ,分 别 为 
d(G,,C,) = 4(5.5 5) + (7.5 — 2)! = 5.52 
d(Ci,C3) = /G.5—1.75)° + (7.5 — 2.25)! = 6.45 








d(C,,C,) = /(5—1.75)* + (2 — 2. 25)* = 3. 26 
进一步 计算 三 个 簇 的 离 群 因子 ,具体 如 下 。 





























和 8 
OF2(C1) = dC) + d(C. C) Jr X 5.52 + X 6.45 = 5.19 
MANU TTE A 8 .. T 
OF2(C) = dC, CD + Èd (CC) = E xs 2 E x 3.26 = 8.37 
OF2(C) — ZAG 4 14(06,0)2 2 x6.454 1. x 3:26 = 1,47 
3 J 5” 2 11 OR lN I ` 








可 见 簇 C, 的 离 群 因子 最 大 ,其 中 包含 的 对 象 被 判定 为 离 群 点 ,与 例 9. 2 得 到 的 结论 
相同 。 


9.2.5 基于 分 类 的 方法 


使 用 基于 分 类 检测 离 群 点 的 时 候 , 分 类 器 可 以 使 用 前 面 介 绍 的 常用 分 类 器 ,如 SVM, 
KNN 决策 树 等 。 构 造 分 类 器 时 ,训练 数据 的 分 布 可 能 极 不 均衡 ,简单 来 说 就 是 正常 的 数据 
可 能 会 非常 多 , 离 群 点 的 数据 可 能 会 非常 少 ,这 会 造成 在 构建 分 类 器 时 精度 受到 很 大 的 影 
响 。 为 解决 正常 数据 和 离 群 点 数据 分 布 的 不 均衡 ,可 以 使 用 一 类 模型 进行 分 类 。 简 单 来 说 
就 是 构建 一 个 描述 正常 数据 的 分 离 器 ,不 正常 的 数据 就 是 离 群 点 。 

例 9.4 使 用 SVM 检测 离 群 点 。 

在 图 9-6 中 ,三 个 圆圈 内 的 样本 是 正常 数据 ， ` . 
圆圈 外 的 数据 是 离 群 点 。 可 以 使 用 圆圈 内 的 正常 
数据 训练 一 个 决策 边界 ,通过 这 个 边界 就 可 以 区 
分 数据 是 正常 数据 还 是 非 正常 数据 , 即 离 群 点 。 
如 果 给 定 的 新 对 象 在 正常 类 的 决策 边界 内 , 则 被 
视 为 正常 ;如 果 新 对 象 在 边界 外 , 则 被 视 为 离 群 
点 。 这 样 就 不 需要 训练 离 群 点 数据 模型 了 ,避免 
了 由 于 数据 分 布 不 均衡 而 造成 的 分 类 器 准确 率 低 
的 现象 。 

使 用 分 类 模型 进行 离 群 点 检测 具有 如 下 优 
势 : 可 以 检测 所 有 的 离 群 点 ,只 要 数据 点 在 决策 
边界 外 即 可 认为 是 离 群 点 ;数据 和 正常 数据 的 距 
离 变 得 不 再 重要 ;避免 了 提取 离 群 点 数据 的 繁重 FoS 使 用 SYM 检测 离 群 点 数据 样本 
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工作 ;避免 了 由 于 正常 数据 和 离 群 点 分 布 不 均衡 造成 的 分 类 器 效果 不 好 的 现象 的 出 现 。 

使 用 基于 分 类 的 方法 进行 离 群 点 的 识别 在 实际 应 用 中 用 得 并 不 是 很 多 ,这 是 因为 这 种 
方式 受训 练 数据 的 影响 非常 大 ,而 在 实际 应 用 中 ,训练 数据 的 质量 并 不 能 够 得 到 很 好 的 
保证 。 


9.3 习题 


1. 有 如 下 情境 : 从 包含 大 量 不 同文 档 的 集合 中 选择 一 组 文档 ,使 它们 尽 可 能 地 彼此 差 
别 最 大 。 如 果 相 互 之 间 不 高 度 相关 (相连 接 、 相 似 ) 的 文档 被 认为 是 离 群 点 ,那么 所 选择 的 所 
有 文档 可 能 都 被 分 类 为 离 群 点 。 一 个 数据 集 全 部 由 离 群 对 象 组 成 可 能 吗 ? 或 者 这 是 误 用 术 
语 吗 ? 

2. 许多 用 于 离 群 点 检测 的 统计 检验 方法 是 在 如 下 环境 中 开发 的 : 数 百 个 观测 就 是 一 
个 大 数据 集 。 考 虑 这 种 方法 的 局 限 性 。 

(1) 如 果 一 个 值 与 平均 值 的 距离 超过 标准 差 的 三 倍 , 则 检测 称 它 为 离 群 点 。 对 于 
1000000 个 值 的 集合 ,根据 该 检验 ,有 离 群 点 的 可 能 性 有 多 大 ? 〈 假 定 正 态 分 布 ) 

(2) 一 种 方法 称 离 群 点 是 具有 不 寻常 低 概率 的 对 象 。 处 理 大 型 数据 集 时 ,该 方法 需要 
调整 吗 ? 如 果 需 要 , 则 如 何 调整 ? 

3. 基于 密度 的 离 群 点 定义 应 当 如 何 理解 ? 假设 有 一 个 点 集 , 其 中 大 部 分 点 在 低 密度 区 
域 ,少量 点 在 高 密度 区 域 。 如 果 定 义 离 群 点 为 低 密度 区 域 的 点 , 则 大 部 分 点 被 划分 为 离 群 
点 。 这 是 对 基于 密度 的 离 群 点 定义 的 适当 使 用 吗 ? 

4. 一 个 离 群 子 集 往往 是 用 某 一 种 离 群 点 检测 算法 检测 出 来 的 ,如 果 继 续 对 这 个 离 群 子 
集 使 用 其 他 不 同 的 多 种 离 群 点 检测 算法 ,那么 ， 

CD 讨论 本 章 介绍 的 每 种 离 群 点 检测 技术 的 行为 。( 如 果 可 能 , 则 使 用 实际 数据 和 算法 
操作 ) 

D 当 用 于 离 群 对 象 的 集合 时 , 离 群 点 检测 算法 的 预期 结果 会 怎样 ? 

5. 有 下 面 的 定义 : 

检测 率 == 离 群 点 的 总 数 /检测 出 的 离 群 点 个 数 ， 
假 警告 率 = 假 离 群 点 的 个 数 /被 分 类 为 离 群 点 的 个 数 。 

假定 正常 对 象 被 分 类 为 离 群 点 的 概率 是 0. 01, 而 离 群 点 被 分 类 为 离 群 点 的 概率 为 

0. 99, 如 果 99% 的 对 象 都 是 正常 的 ,那么 假 警 告 率 或 误 报 率 和 检测 率 各 为 多 少 ? 
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附录 A 
Weka 的 安装 及 使 用 规范 


A.1 Weka 的 安装 


A.1.1 Weka 


Weka( Waikato Environment for Knowledge Analysis) 的 全 名 是 怀 卡 托 智能 分 析 环 境 ， 
是 一 款 免费 、 非 商业 化 、 基 于 Java 环境 下 开源 的 机 器 学 习 (Machine Learning) 以 及 数据 挖掘 
软件 ,其 源 代 码 可 在 官方 网 站 下 载 ,地 址 为 http://www. cs. waikato. ac. nz/ ml/weka/. 
Weka 也 是 新 西 兰 独 有 的 一 种 鸟 的 名 字 , 而 Weka 的 主要 开发 者 恰好 来 自 新 西 兰 的 怀 卡 托 
大 学 。 

Weka 作为 一 个 公开 的 数据 挖掘 工作 平台 ,集合 了 大 量 能 承担 数据 挖掘 任务 的 机 器 学 
习 算 法 ,包括 对 数据 进行 预 处 理 、 分 类 .回归 、 聚 类 .关联 规则 以 及 在 新 的 交互 式 界面 上 的 可 
视 化 。 


A.1.2 JRE 的 安装 


JRE(Java Runtime Environment) 是 Java 的 运行 环境 ,是 Weka 运行 的 前 提 条 件 。 安 装 
JRE 的 过 程 如 下 。 

(OD 下 载 Java 运行 环境 JRE。 下 载 路 径 为 http://www. java. com/en/download/ 
manual. jsp ,版 本 号 为 1. 8.0。 根 据 所 使 用 的 操作 系统 选择 下 载 JRE。 

@ 运行 JRE 安装 文件 ,在 如 图 A-1 所 示 的 “Java 安装 程序 -欢迎 使 用 ”窗口 中 ,可 以 选择 
“更 改 目 标 文件 夹 ”" 复 选 框 修改 TRE 的 安装 路 径 , 单 击 “ 安 装 (了 D) 二 ”按钮 。 

© 在 如 图 A-2 所 示 的 “Java 安装 -目标 文件 夹 " 窗 口中 , 单 击 “ 更 改 (C)...” 按 钮 修改 JRE 
的 安装 路 径 。 例 如 选择 的 安装 路 径 为 D:\softNjre。 单 击 * 下 一 步 (N) 二 ”按钮 进行 安装 。 

D 安装 结束 后 ,将 IRE 的 安装 路 径 添加 到 环境 变量 中 。 例 如 这 里 的 D:\soft\jre\bin。 
添加 环境 变量 的 方法 为 打开 控制 面板 ,选择 “系统 和 安全 ”选项 ,选择 “系统 ”, 然 后 单 击 “ 高 级 
系统 设置 ”, 出 现 如 图 A-3 所 示 的 “系统 属性 ”对 话 框 。 

在 图 A-3 中 单 击 “ 环 境 变 量 (N)...” 按 钮 ,出 现 如 图 A-4 所 示 的 “环境 变量 ”对 话 框 。 

在 图 A-4 中 选择 “系统 变量 ”列表 框 中 的 变量 Path, 单 击 “ 编 辑 (1)...” 按 钮 , 出现“ 编辑 
环境 变量 ”对 话 框 ,如 图 A-5 所 示 。 

在 图 A-5 中 , 单 击 “ 新 建 (N) ”按钮 ,为 JRE 添加 环境 变量 ,将 D:\soft\jre\bin 写 入 文本 
框 , 即 完成 了 对 环境 变量 的 添加 。 
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欢迎 使 用 Java 


Java 可 以 引领 您 步 入 由 精彩 内 容 构成 的 世界 。 从 商业 解决 方案 到 有 用 的 实用 
程序 和 娱乐 应 用 , Java 使 您 的 Internet 体验 生动 有 趣 。 


EE 在 我 们 的 安装 过 程 中 , 不 会 收集 个 人 信息 。 单 击 此 处 可 了 解 有 关 我 们 所 
收集 内 容 的 详细 信息 . 


单 击 "安装 " 可 接受 许可 协议 并 立即 安装 Java, 




















J 更 改 目标 文件 夫 取消 | seo 

















图 A-1 Java 安装 程序 -欢迎 使 用 





Java 安装 - 目标 文件 夹 = x 
& 
EI 
目标 文件 夹 


单 击 "更 改 " 以 将 Java 安装 到 其 他 文件 来 。 





安装 到 : BBC). 
DAsoftjre 

















< 上 一 步 (B) 下 一 步 (N) > 





图 A-2 Java 安装 -目标 文件 夹 








图 A-3 系统 属性 
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pc-an 的 用 户 变量 (U) 





== a 

MOZ PLUGIN PATH DAProgram Files (x86) Foxit Software Foxit Reader\plugins\ 

PATH CAUsers\pc-an\AppData\Roaming\Composer\vendor\bin:%USE... 
S&USERPROFILESSVAppDataW.ocal Temp 

TMP *&USERPROFILESEppData Vocal Temp. 





























系统 变量 (S) 


变量 a 

ComSpec CAWINDOWS system32Vcmd.exe. 
NUMBER OF PROCESSORS 4 

os 





PATHEXT -COM;EXE; BAT; CMD;: 
PROCESSOR ARCHITECT.. AMD64 
PROCESSOR IDENTIFIER 。 Inteló4 Family 6 Model 60 Stepping 3, Genuinelntel 


[wan ] [ wan- ] 
L=] 





VBE:JS; 





ISEWSF.WSH;MSC 









































图 A-4 环境 变量 





CAProgramData\Oracle\Java\javapath 

%SystemRoot%Vsystem32 

%SystemRoot% 

%SystemRoot%\System32\Wbem 
SeSYSTEMROOTSAVSystem32WindowsPowerShell1.0V 
CNProgram Files (x86)\MySQL\MySQL Fabric 1.5 & MySQL Utilit... 
CaProgram Files (x86)\MySQL\MySQL Fabric 1.5 & MySQL Utilit... 
CAProgram Files; MySQLWMySQL Server 5.7\bin 

D3Javadk1.8.0 101Vbin. 

CAProgramData\ComposerSetup\bin 

Di\software\php7 























DAsoftware\php7\ext 
DAsoftware\python 


DMApache24\bin 
































图 A-5 编辑 环境 变量 


C) 安装 结束 后 可 以 通过 命令 提示 符 检测 安装 是 否 成 功 ,如 图 A-6 所 示 , 输 入 java - 
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version 命令 查看 JRE 的 安装 结果 ,如 果 出 现 Java 的 版 本 信息 , 则 说 明 TRE 安装 成 功 。 














图 A-6 命令 提示 符 


A.1.3 Weka 的 安装 


以 安装 Windows 系统 上 的 Weka 3. 8.0 版 本 为 例 

D FR Weka 3.8.0 版 本 。 下 载 路 径 为 http://www. cs. waikato. ac. nz/ml/weka/ 
downloading. html。 根 据 计 算 机 的 配置 选择 相应 的 安装 程序 。 由 于 在 A.1. 2 节 中 已 经 安 
装 了 JRE, 此 处 下 载 不 包含 JRE 的 软件 包 , 如 图 A-7 所 示 。 





* Stable version 


Weka 3.8 is the latest stable versi 
become available in packages. Th 











Windows 









lick here to download a self-extr: 
3 5MB) 


table for 64-bit Windo: 





f-extracting 
IB) 








Click here to dow f-extracting executable for 32-bit Windows that includes Oracle's 32-bit Java VM 1.8 
(weka-3-8-0jre exe 
Click here to download a self-extracting executable for 32-bit Windows without a Java VM 





(weka-3-8-0.exe; 50.2 





These execut: 
already have Jav 





nstal 
17 (or later) 


a in your Progra 
your system. 





nu. Download the version without the Java VM if you 











图 A-7 Weka 安装 包 的 下 载 


下 载 后 运行 Weka 安装 程序 ,出 现 如 图 A-8 所 示 的 Weka 3. 8. 0 Setup- Welcome 窗口 ， 
单 击 Next 二 按钮 。 

2) 图 A-9 所 示 的 Weka 3. 8. 0 Setup-License Agreement 窗口 为 是 否 同意 Weka 的 许 
可 证 信息 。 这 里 单 击 I Agree 按钮 表示 同意 。 

© 在 如 图 A-10 所 示 的 Weka 3. 8. 0 Setup -Choose Components 窗口 中 选择 安装 组 件 ， 
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3 3 2-3 IS 3 1542 48: 








(@ Weka 3.8.0 Setup <= 


Welcome to the Weka 3.8 0 Setup 
Wizard 

This wizard will guide you through the installation of Weka 
3.8.0. 

It is recommended that you dose all other applications. 
before starting Setup. This wil make it possble to update 
relevant system fies without having to reboot your 
computer, 


Click Next to continue. 


[nes] | emn 





图 A-8 Weka 3. 8. 0 Setup- Welcome 





(9 Weka 3.8.0 Setup 一 


License Agreement 
Please review the license terms before instaling Weka 3.8.0. 





Press Page Down to see the rest of the agreement. 








| GNU GENERAL PUBLIC LICENSE ^ 
Version 3, 29 June 2007 


Copyright (C) 2007 Free Software Foundation, Inc. <http://fsf.orq/> 
Everyone is permitted to copy and distribute verbatim copies 
of this license document, but changing it is not allowed. 

Preamble 


The GNU General Publi License is a free, copyleft license for 
[software and other kinds of works. v 


1f you accept the terms of the agreement, dick I Agree to continue. You must accept the 
agreement to install Weka 3.8.0. 














(9 Weka 3.80 Setup = 


Choose Components 
Choose which features of Weka 3.8.0 you want to install 


Check the components you want to install and uncheck the components you don't want to 
install. Click Next to continue. 


Select the type of install: 

p^ Mr PEBE ff and 

components you wish to š 

install: Es rff files with the Weka 
Explorer. 





Space required: 104.9MB. 





ce [enr] | == 








A-10 Weka 3. 8. 0 Setup-Choose Components 
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此 处 选择 Full( 全 部 安装 ) , 单 击 Next > TEL. 
CD 在 如 图 A-11 所 示 的 Weka 3. 8. 0 Setup -Choose Install Location 窗口 中 单 击 
Browse... 按 钮 。 


@ Weka 3.80 Setup _ x 
u k Choose Install Location. 
eka Choose the folder in which to install Weka 3.8.0. 


Setup will install Weka 3.8.0 in the following folder. To install in a different folder, dick Browse 
and select another folder. Click Next to continue. 





Destination Folder 
[ Browse... 




















Space required: 104.9MB 





Nullsoft Install System v08-Mar-2013.cvs 





[sme MB ( ca | 


图 A-11 Weka 3. 8. 0 Setup-Choose Install Location 








在 如 图 A-12 所 示 的 Weka 3. 8. 0 Setup -Select folder 窗口 中 ,选择 Weka 的 安装 路 径 ， 
这 里 选择 的 路 径 为 D 盘 目 录 下 的 soft 文件 夹 下 的 weka 文件 夹 ,然后 单 击 “ 确 定 ? 按 钮 。 


@ Weka 380 Setup 





[E rre x 


Setup. Select the folder to install Weka 3.8.0 in: 





voa. SHORE (D) ^ 

360Downloads 

Android 
| AndroidData 

Apache24 

centos 

cygwin 

cygwin64 

IBM 

Java 

lapack-3.6.1 

MinGW. 

MinGW1 

mysaldata 

> Í Í Program Files 
> || Program Files (x86) 
> [| Python27 











in. 














FERM [= ] » 














A-12 Weka 3. 8. 0 Setup-Select folder 


在 如 图 A-13 所 示 的 Weka 3. 8. 0 Setup -Choose Install Location 窗口 中 ,中 间 的 文本 
框 中 显示 了 图 A-12 中 所 选择 的 安装 路 径 D: NsoftNwekaN Weka-3-8 , iX Hi fj Weka-3-8 是 软 
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件 自动 为 选择 的 路 径 添加 的 文件 夹 。 单 击 Next 二 按钮 进入 下 一 步 。 


@ Weka 3.8.0 Setup 一 x 
u k Choose Install Location 
eka Choose the folder in which to install Weka 3.8.0. 


Setup will install Weka 3.8.0 in the following folder. To install in a different folder, dick Browse. 
and select another folder. Click Next to continue. 








Destination Folder. 








D: woftwekaWeka-3-8 Browse... 











Space required: 104.9MB 
Space available: 69.468 


Nullsoft Install System v08-Mar-2013.cvs 

















zed [s>] | Gm 

















图 A-13 Weka 3. 8. 0 Setup-Choose Install Location 


© 在 如 图 A-14 所 示 的 Weka 3. 8. 0 Setup -Choose Start Menu Folder 窗口 中 ,可 以 在 
列表 框 中 选择 生成 快捷 方式 图 标的 名 称 , 也 可 以 使 用 软件 默认 的 名 称 Weka 3. 8.0。 可 选 框 
Do not create shortcuts 用 来 指定 是 否 生 成 快捷 方式 ,这 里 默认 不 选择 。 单 击 Install 按钮 进 
行 安装 。 

(@ Weka 3.8.0 Setup - x 


Weka Choose Start Menu Folder 
Choose a Start Menu folder for the Weka 3.8.0 shortcuts. 





Select the Start Menu folder in which you would ike to create the program's shortcuts. You 
can also enter a name to create a new folder. 





























Nullsoft Install System v08-Mar-2013.cys 














ces [xm [aa 























图 A-14 Weka 3. 8. 0 Setup-Choose Start Menu Folder 


@ 在 如 图 A-15 所 示 的 Weka 3. 8. 0 Setup -Installation Complete 窗口 中 ,提示 软件 已 
经 完全 安装 成 功 , 单 击 Nexic fL. 

在 如 图 A-16 所 示 的 Weka 3. 8. 0 Setup -Completing the Weka 3. 8.0 Setup Wizard 窗 
口中 ,提示 安装 完成 。 可 选 框 Start Weka 用 来 在 安装 完成 Weka 后 直接 启动 Weka 软件 ,这 
里 默认 选中 。 单 击 Finish 按钮 ,完成 Weka 的 安装 过 程 。 

CD 安装 结束 后 ,将 Weka 的 安装 路 径 添加 到 环境 变量 中 ,完成 Weka 的 安装 。 由 于 安装 
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(@ Weka 3.8.0 Setup - 


Installation Complete 
Setup was completed successfully. 











Create shortcut: D: \soft\weka\Weka-3-8\Weka 3.8.nk 
Create shortcut: D: woftiweka Weka-3-8Weka 3.8 (with console) nk 
Created urinstaller: D: \soft\weka \Weka-3-8\uninstal. exe 










Create shori \ProgramData Wicrosoft\Windows\Start Menu\Programs\Weka 3..... 
Create shor! \ProgramData Microsoft (Windows start Menu Programs Weka 3... 
Create shortcut: C:\ProgramData Microsoft \Windows\Start Menu\Programs\Weka 3..... 
Completed m 








numi 性 


图 A-15 Weka 3. 8. 0 Setup-Installation Complete 








(9 Weka 3.8.0 Setup. - 


Completing the Weka 3.8.0 Setup 
Wizard 


Weka 3.8.0 has been installed on your computer. 
Chck Finish to dose this wizard. 


Start weka 








sl zs 


A-16 Weka 3. 8. 0 Setup-Completing the Weka 3. 8. 0 Setup Wizard 





路 径 选 择 的 是 D:\soft\weka\Weka-3-8, 所 以 将 路 径 D: NsoftNwekaN Weka-3-8 添加 到 环境 
变量 中 ,方法 与 JRE 的 添加 方式 相同 。 


A.2 Weka 使 用 方法 


以 Weka 安装 目录 data 文件 夹 下 的 contact-lenses. arff 作为 实验 数据 。 

(D 打开 Weka 软件 ,进入 Weka 主 窗口 ,如 图 A-17 所 示 。 

在 图 A-17 中 , 单 击 Explorer 按钮 ,出 现 如 图 A-18 所 示 的 Weka Explorer 窗口 。 

数据 文件 的 打开 方式 如 下 : 选择 Preprocess 选项 卡 , 单 击 Open file... 按 钮 ,出现 “打开 ” 
对 话 框 。 找 到 需要 打开 的 数据 文件 contact-lenses. arff( 需 要 进入 之 前 Weka 软件 安装 目录 
的 data 文件 夹 下 ,如 D: NsoftNwekaNWeka-3-8Mdata) . 单 击 “ 打 开 ?” 按 钮 ,出 现 如 图 A-19 所 示 
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Q Weka GUI Chooser 一 口 x 











的 数据 显示 界面 。 




















图 A-19 Weka Explorer- 数 据 显示 界面 
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© 在 图 A-19 中 可 以 看 到 界面 对 数据 进行 了 整体 性 分 析 。 其 中 , Attributes 栏 中 显示 
的 是 contact-lenses. arff 文件 中 的 各 个 属性 ,并 且 每 个 属性 都 是 可 选择 性 显示 的 ; 单 击 
Edit... 按 钮 可 以 查看 contact-lenses. arff 文件 中 的 记录 ;Selected attribute 栏 中 显示 的 是 在 
Attributes 栏 中 选中 的 某 个 属性 列 的 数据 分 布 情况 ,如 该 属性 的 名 称 、 类 型 .标签 值 的 个 数 、 
每 个 标签 对 应 记录 的 个 数 等 信息 ;在 窗口 的 右 下 方 显示 了 Attributes 栏 中 选中 的 属性 对 应 
的 数据 分 布 ,用 不 同 颜色 .不同 大 小 分 别 代表 不 同类 型 的 属性 及 所 占 的 比例 。 

© 导入 数据 后 ,可 以 使 用 不 同 的 算法 进行 数据 挖掘 ,以 下 使 用 Apriori 算法 进行 关联 
分 析 。 

在 图 A-19 中 ,选择 Associate 选项 卡 ,在 如 图 A-20 所 示 的 窗口 中 单 击 Choose 按钮 ,在 
出 现 的 选择 关联 方法 的 界面 中 选择 文件 夹 associations 下 的 Apriori 算法 , 单 击 Close 按钮 
返回 图 A-19。 


|o Weka Explorer - - "Em 











|0.1 -S -1.0-c-1 


















































图 A-20 Weka Explorer- 选 择 Apriori 算法 


@ 选择 使 用 的 算法 之 后 ,需要 对 Apriori 算法 进行 参数 设置 。 在 图 A-19 中 单 击 
Choose 按钮 ,出 现 如 图 A-21 所 示 的 参数 设置 对 话 框 。 

常用 参数 说 明 如 下 。 

car: 若 为 真 , 则 挖掘 类 关联 规则 ; 若 为 假 , 则 全 局 关联 规则 。 

classIndex: 类 属性 索引 。 设 置 为 一 1, 最 后 一 个 属性 被 当 作为 类 属性 。 

delta; 迭代 递减 单位 。 不 断 减 小 支持 度 直至 达到 最 小 支持 度 或 产生 了 满足 数量 要 求 的 
规则 。 

metricType: 度量 类 型 。 设 置 对 规则 进行 排序 的 度量 依据 ,可 以 是 置信 度 ( 类 关联 规则 
只 能 用 置信 度 挖掘 ) 、 提 升 度 (ift) ,杠杆 率 (leverage) Mitä E (conviction). 

修改 完 参数 单 击 OK 按钮 返回 数据 显示 界面 。 

© 在 选择 Apriori 算法 界面 中 单 击 Start 按钮 ,开始 对 contact-lenses. arff 数据 利用 
Apriori 算法 进行 关联 分 析 , 结 果 如 图 A-22 所 示 。 


269 


270 数据 分 析 与 数据 挖 报 





Class implementing an Apriori-ype algorithm. 


|! 


j 


| 














图 A-21 weka. gui. GenericObjectEditor 


一 w informacion 一 


weka.associations.Apezori -N 10 -T D -C 0.9 -0 0.05 -U 1.0 -M 0.1 -3 -1.0 -e -1 
cencset-lenses 


Minim suppor: 0.2 (š instances) 


Size of aet of large itemeess L(D: 11 


Size of set of large Itemsecs Lys 21 


taam-proc-ratasrecuesa 13 => contaet-iensesenone 12 <et: ij Hire: (i.0) lev: (9.39) £4] conve (8.5) 

Spectacle-prescrip=nycpe tear-pzod-zete=rediced 6 => contact-lenses-none é <ccats1i)> lift: (1.6) lev: (0.09) [i] conv: (2.28) 
aceciacle srescric-hypecmerope tear-prod-zate=reducsd € —> ccaracr lenses-nore € <confi(1)> lift: (1,6) lev: (0.09) [2] canv: (2.28) 
astimarismno tesr-prod-rate=redsced 6 —> cobtact-lenses-eone & <eonfs (1)> lifeiil.6| lev:(0.03) [2] conv: (2.25) 

astigmazlsmeges teer-prod-retesrecuced 6 ==> concact-lenses=none € <conf: (1)> 1ft: (1.6) lev: (0.09) [2] cov: (2.25) 
Certaetllesseseentr 5 ==> astigmatzszmns 5 ¿eseri (iio itte (3) 1ev:(9.1) [2] eemv: [2.5] 

Gonsact-lasses-soft S — zear-prod-zate=aormal 5 eer (1)> lafer|2) levi (0.1) [2] conv (2.5) 

tear-prod-rate-normal contact-lensez-zoft 5 —> astigmatiamno 5 <eonf:(1]> Lift: (2) lev: (0.1) [2] conv: [2.8] 

astimariamno contact-lenses-soft 5 —> teer-prod-rete-normal 5 — <cenfs (11> lift: (2) lev:(0.1) [2] env: 12.8) 

comtact-lenses=soft 5 => setigmatisreno tenr-prod-ratesnormal 5  <conf: (l> Lifts (4) lev: (0.16) [3] conv: (3.75) 





图 A-22 Weka 运行 结果 
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Best rules found 即 为 Apriori 算法 分 析 后 效果 最 好 的 前 10 条 关联 规则 。 

例如 : tear-prod-rate 一 reduced 12= => contact-lenses 一 none 12 —conf:(1)7 lift; 
(1.6)lev:(0. 19)[4] conv: (4. 5) 

含义 : 属性 列 tear-prod-rate 的 值 为 reduced 有 12 条 记录 , 且 该 值 对 应 的 属性 列 
contact-lenses 的 值 为 none 也 有 12 条 记录 ,该 关联 规则 的 置信 度 conf 为 1, 提 升 度 lift 为 
0.19(lift=1 表示 两 个 属性 独立 ,此 值 越 大 , 越 表 明 两 个 属性 存在 于 一 个 购物 篮 中 不 是 偶然 
现象 ,有 较 强 的 关联 度 ) ,确信 度 conv 为 4. 5(conviction 用 来 衡量 两 个 属性 的 独立 性 ,该 值 
越 大 ,两 个 属性 越 关联 )。 


A.3 Weka 数据 格式 


Weka 软件 支持 多 种 数据 格式 的 文件 ,本 节 主 要 介绍 常见 的 集中 数据 格式 。 
1. arff 格式 


arff 格式 是 Weka 专用 的 文件 格式 ,是 Weka 默认 打开 的 文件 格式 ,全 称 为 Attribute- 
Relation File Format, 它 是 一 个 ASCI 文本 文件 ,记录 了 一 些 共享 属性 的 实例 。arff 格式 是 
由 怀 卡 托 大 学 的 计算 机 科学 部 门 开发 的 。 

arff 格式 的 文件 主要 由 两 个 部 分 构成 , 即 头 部 定义 和 数据 区 。 头 部 定义 包含 关系 名 称 
(relation name) 一些 属性 (attributes) 和 对 应 的 类 型 。 

arff 格式 的 文件 样式 如 下 。 

3x Hi LL" 85 FÉ Ji Gris) "植物 举例 说 明 。 

COD 头 部 定义 


@RELATION iris 

@ ATTRIBUTE sepallength NUMERIC 

G ATTRIBUTE sepalwidth NUMERIC 

@ ATTRIBUTE petallength NUMERIC 

G ATTRIBUTE petalwidth NUMERIC 

@ ATTRIBUTE class (Iris- setosa, Iris- versicolor,Iris- virginica} 


说 明 : jx E ñj @ RELATION iris 标记 iris 标题 ; @ ATTRIBUTE sepallength 
NUMERIC 表示 属性 参数 sepallength 对 应 的 数据 类 型 为 NUMERIC; 另 外 还 有 其 他 四 个 属 
TE: sepalwidth,petallength, petalwidth,class 以 及 属性 对 应 的 数据 类 型 。 

(2) 数据 区 

@ DATA 

5.1,3.5,1.4,0.2, Iris- setosa 

4.9,3.0,1.4,0.2,Iris- setosa 

4.7,3.2,1.3,0.2,Iris- setosa 

说 明 : 这 里 的 @DATA 表示 数据 区 。5. 1,3. 5,1.4,0. 2. Iris-setosa 对 应 头 部 所 定义 的 
属性 值 ,例如 5. 1,3. 5、1. 2,0. 2 Iris-setosa 分 别 对 应 了 iris 的 sepalwidth, petallength, 


petalwidth class, 
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2. csv 格式 


3i 5 4r B Comma-Separated Values,CSV) 有 时 也 被 称 为 字符 分 隔 值 , 因 为 分 隔 字符 
也 可 以 不 是 逗号 ,其 文件 以 纯 文本 形式 存储 表格 数据 。 

Weka 可 以 直接 打开 csv 格式 的 数据 ,还 可 以 将 csv 文件 通过 Weka 的 命令 行 工具 转化 
为 arff 文件 。 

运行 Weka 软件 ,在 如 图 A-23 所 示 的 “Weka GUI Chooser” 窗 口中 单 击 Simple CLI 按 
钮 ,进入 SimpleCLI 模 块 , 它 提供 命令 行 功能 。 在 最 下 方 (上 方 是 不 能 写字 的 ) 的 输入 框 中 输 
入 以 下 命令 即 可 完成 转换 ,如 图 A-24 所 示 。 





© Weka GUI Chooser - 0 x 


Program Visualization Tools Help 





图 A-23 Weka GUI Chooser 





Q simplecu = EU X 





Welcome to the WEKA SimpleCLI A 


Enter commands in the textfield at the bottom of 
the window. Use the up and down arrows to move 
through previous commands. 

Command completion for classnames and files is 
initiated with <Tab>. In order to distinguish 
between files and classnames, file names must 

be either absolute or start with '.V' or '-/' 

(the latter is a shortcut for the home directory). 
<Alt+BackSpace> is used for deleting the text 

in the commandline in chunks. 


> help 


Command must be one of: 
java «classname» «args» [ > file] 
kill 
capabilities «classname» «args» 
cis 
history 
exit 
help «command» 














图 A-24 SimpleCLI 


java weka. core. converters. CSVLoader filename. csv— filename. arff 


CSV 格式 的 文件 样式 如 下 。 
姓名 ,性别 ,年龄 


附录 A Weka 的 安装 及 使 用 规范 


张 三 , 男 ;26 
李 四 , 男 ,24 


3. xls/xlsx 


Excel 的 xls/xlsx 文件 也 是 较为 常见 的 数据 格式 ,多 数 数据 处 理 软 件 支 持 该 文件 格式 。 
其 中 ,xls 文件 为 较 低 版 本 的 Excel 存储 的 文件 ,xlsx 文件 为 较 高 版 本 的 Excel 存储 的 文件 。 
xls/xlsx 文件 可 以 将 多 个 二 维 表格 放 到 不 同 的 工作 表 (Sheet) 中 。 由 于 Weka 不 能 直接 打 
JF xls/xlsx 文件 ,所 以 需要 将 xls/xlsx 文件 转化 为 其 他 Weka 支持 的 格式 ,这 里 可 以 选择 转 
化 为 csv 文件 供 Weka 使 用 。 转 换 的 方式 很 简单 : 使 用 Excel 打开 xls/xlsx 格式 的 文件 , 选 
择 “ 文 件 ” 选 项 , 单 击 “ 另 存 为 ”按钮 ,在 “保存 类 型 "中 选择 csv 格式 作为 保存 数据 类 型 , 即 可 
将 文件 保存 为 csv 格式 ,如 图 A-25 所 示 。 








O) 




















图 A-25 xls/xlsx 保存 为 csv 格式 的 文件 


xls/xlsx 格式 的 文件 样式 如 下 。 
姓名 "EX 年 龄 
= 5 26 


李 四 男 24 


4. json 格式 


json 格式 的 数据 文件 也 比较 常见 ,在 数据 处 理 或 者 网 络 数据 处 理 中 都 作为 数据 的 标准 
格式 。Weka 软件 直接 支持 json 格式 的 数据 ,所 以 可 以 通过 Weka 直接 打开 json 格式 的 
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Xiks 
json 格式 的 文件 样式 如 下 。 


("programmers": ( 
"firstName": "Brett", 
"lastName": "McLaughlin", 
"email": "aaaa" 


n 


说 明 : json 文件 的 数据 存储 采用 键 值 对 的 方式 。 例 如 ,样式 中 的 "programmers" 对 应 的 
值 为 { "firstName": " Brett"," lastName" 


: " McLaughlin"," email"; "aaaa"), 其 中 
"firstName" XT M f (8 2g " Brett" 。 
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